WO2020141907A1 - 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법 - Google Patents

키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법 Download PDF

Info

Publication number
WO2020141907A1
WO2020141907A1 PCT/KR2020/000063 KR2020000063W WO2020141907A1 WO 2020141907 A1 WO2020141907 A1 WO 2020141907A1 KR 2020000063 W KR2020000063 W KR 2020000063W WO 2020141907 A1 WO2020141907 A1 WO 2020141907A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
vector
model
product
keyword
Prior art date
Application number
PCT/KR2020/000063
Other languages
English (en)
French (fr)
Inventor
이한빛
이상구
김지훈
Original Assignee
삼성전자주식회사
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 서울대학교 산학협력단 filed Critical 삼성전자주식회사
Publication of WO2020141907A1 publication Critical patent/WO2020141907A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present disclosure relates to an image generating apparatus and an image generating method for generating an image based on keywords.
  • the Artificial Intelligence (AI) system is a computer system that realizes human-level intelligence, and unlike the existing Rule-based smart system, the machine learns, judges, and becomes intelligent. As the AI system is used, the recognition rate is improved and the user's taste can be understood more accurately, and the existing Rule-based smart system is gradually being replaced by the deep learning-based AI system.
  • Machine learning Deep learning
  • elemental technologies utilizing machine learning.
  • Machine learning is an algorithm technology that classifies/learns the characteristics of input data by itself
  • element technology is a technology that simulates functions such as cognition and judgment of the human brain by using machine learning algorithms such as deep learning. It consists of technical fields such as understanding, reasoning/prediction, knowledge expression, and motion control.
  • Linguistic understanding is a technology that recognizes and applies/processes human language/characters, and includes natural language processing, machine translation, conversation system, question and answer, speech recognition/synthesis, and the like.
  • Visual understanding is a technology that recognizes and processes objects as human vision, and includes object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image improvement.
  • Inference prediction is a technique for logically inferring and predicting information by determining information, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendation.
  • Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge building (data generation/classification), knowledge management (data utilization), and so on.
  • Motion control is a technique for controlling autonomous driving of a vehicle and movement of a robot, and includes motion control (navigation, collision, driving), operation control (behavior control), and the like.
  • Some embodiments may provide an image generating apparatus and method capable of generating a product image corresponding to a specific product attribute based on a keyword indicating the attribute of the specific product.
  • FIG. 1 is a schematic diagram illustrating a method in which an image generating apparatus 1000 according to some embodiments generates an image based on a keyword.
  • FIG. 2 is a flowchart of a method in which the image generating apparatus 1000 according to some embodiments generates an image based on keywords.
  • FIG 3 is a diagram illustrating an example in which the image generating apparatus 1000 according to some embodiments generates an image based on keywords.
  • FIG. 4 is a flowchart of a method of generating an attribute vector corresponding to a keyword set by the image generating apparatus 1000 according to some embodiments.
  • FIG. 5 is a diagram illustrating an example in which the image generating apparatus 1000 according to some embodiments generates an attribute vector corresponding to a keyword set.
  • FIG. 6 is a flowchart of a method for determining whether the generated image is a fake image by considering the set of keywords on which the image generating apparatus 1000 is based on image generation.
  • FIG. 7 is a diagram illustrating an example in which the image generating apparatus 1000 determines whether the generated image is a fake image in consideration of a keyword set that is the basis of image generation.
  • FIG. 8 is a block diagram of an image generating apparatus 1000 according to some embodiments.
  • a first aspect of the present disclosure includes: a memory storing one or more instructions; And a processor that controls the image generating device by executing the one or more instructions, wherein the processor acquires a keyword set including a plurality of keywords representing attributes of a specific product, and obtains a plurality of keywords in the keyword set.
  • a product corresponding to the attributes of the specific product which is output from the image generation model, by generating an attribute vector corresponding to the keyword set based on the keyword and inputting the generated attribute vector into a predetermined image generation model
  • By generating an image, and inputting the product image and the keyword set data output from the image generation model into a predetermined image discrimination model it is determined whether the product image is a fake image output from the image generation model, Based on the discrimination result, it is possible to provide an image generating device that updates the image generating model.
  • a second aspect of the present disclosure includes an operation of obtaining a keyword set including a plurality of keywords representing attributes of a specific product; Generating an attribute vector corresponding to the keyword set based on the plurality of keywords in the keyword set; Generating a product image corresponding to attributes of the specific product, which is output from the image generation model, by inputting the generated attribute vector into a predetermined image generation model; An image comprising: determining whether the product image is a fake image output from the image generation model by inputting the product image output from the image generation model and the keyword set data into a predetermined image discrimination model.
  • a method of creation can be provided.
  • the third aspect of the present disclosure can provide a computer program apparatus including a computer-readable recording medium on which a program for executing the method of the second aspect is executed on a computer.
  • FIG. 1 is a schematic diagram illustrating a method in which an image generating apparatus 1000 according to some embodiments generates an image based on a keyword.
  • the image generating apparatus 1000 receives a keyword set including a keyword representing a property of a specific product or a plurality of keywords representing properties of a specific product.
  • the image generating apparatus 1000 may receive keyword sets 110 and 120 including a plurality of keywords representing attributes of a clothing product.
  • the first keyword set 110 may include a keyword “Bodycon” indicating a tight style and a keyword “Short sleeve” indicating a short sleeve.
  • the second keyword set 120 may include a keyword “Bodycon” indicating a tight style, a keyword “Red” indicating a red color, and a keyword “Long sleeve” indicating a long sleeve.
  • the image generating apparatus 1000 may generate the clothing product image based on the keyword sets 110 and 120 representing the properties of the received clothing product.
  • the image generating apparatus 1000 is an image corresponding to the keywords “Bodycon” and “Short sleeve” in the first keyword set 110, and short-sleeved tight style women's clothing images ( 115).
  • the image generating apparatus 1000 is the image corresponding to the keywords “Bodycon”, “Red”, and “Long sleeve” in the second keyword set 120, and the long sleeve tight style red women's clothing images 125 You can create
  • the image generating apparatus 1000 may receive a plurality of keywords representing attributes of a specific product, and generate product images representing attributes of a specific product.
  • the generated product images are images generated to correspond to attributes of a specific product, and may be used as images to be referenced in designing a new product having corresponding attributes.
  • the image generating apparatus 1000 needs to generate various product images that are close to the real product images, and it is necessary to generate a product image that satisfies a keyword set representing product attributes as a condition of image generation. .
  • FIG. 2 is a flowchart of a method in which the image generating apparatus 1000 according to some embodiments generates an image based on keywords.
  • the image generating apparatus 1000 may obtain a keyword set including a plurality of keywords representing attributes of a specific product.
  • the specific product may be one of products such as clothing products, stationery products, automobile products, and the like.
  • a specific product may be a clothing product, and the clothing product may include a shirt, knit, pants, and the like.
  • the specific product is not limited to the aforementioned clothing product, stationery product, and the like.
  • the property of a specific product may mean a characteristic or property representing a specific product.
  • a specific product is a clothing product
  • the color, pattern, sleeve length, and shape of the neck of the clothing product may be attributes of the specific product.
  • the keyword indicating the attribute of a specific product may refer to a keyword indicating characteristics or properties of a specific product. For example, when a specific product is a clothing product, keywords such as “red” and “blue” as keywords representing color attributes, keywords representing pattern attributes such as “long sleeve” and “short sleeve” as keywords representing sleeve length attributes. As “floral”, “stripe”, and the like may be keywords that indicate the properties of clothing products.
  • the keyword set may include a plurality of keywords representing attributes of a specific product. Since a plurality of keywords in the keyword set represent attributes of a specific product, the keyword set may represent a combination of attributes of a specific product represented by a plurality of keywords in the keyword set. For example, when a specific product is a clothing product, a keyword set including “red”, “long sleeve”, and “floral” as keywords representing attributes of the clothing product includes “red”, “long sleeve”, and The color of the combination of “floral” is red, the length of the sleeve is long sleeve, and it can represent the property of having a floral pattern as a pattern.
  • the image generating apparatus 1000 may receive a keyword set, which includes a plurality of keywords representing attributes of a specific product, from a user.
  • the image generating apparatus 1000 may include an input interface such as a touch screen, a keyboard, and a mouse.
  • the image generating apparatus 1000 may receive a plurality of keywords representing attributes of a specific product from a user through an input interface.
  • the image generating apparatus 1000 may receive a keyword set, including a plurality of keywords representing attributes of a specific product, from an external device.
  • the image generating device 1000 may include a communication interface for transmitting and receiving data to and from an external device.
  • the image generating apparatus 1000 may receive a plurality of keywords representing attributes of a specific product from an external device through a communication interface.
  • the image generating apparatus 1000 may identify a keyword set including a plurality of keywords representing attributes of a specific product in a file stored in the memory.
  • the image generating apparatus 1000 may generate an attribute vector corresponding to the keyword set based on a plurality of keywords in the keyword set.
  • the image generating apparatus 1000 may generate a plurality of vectors corresponding to a plurality of keywords in the obtained keyword set.
  • the image generating apparatus 1000 may generate an attribute vector corresponding to a vector set including a plurality of vectors, based on the generated plurality of vectors.
  • the attribute vector since the vector set corresponds to the keyword set, the attribute vector may correspond to the keyword set.
  • “attribute vector” is a vector corresponding to a keyword set, and may mean an input noise vector input to an image generation model described later.
  • the attribute vector may correspond to a combination of attributes of a specific product represented by a plurality of keywords in the keyword set. For example, if the keyword set includes “red”, “long sleeve”, and “floral” as keywords representing attributes of a specific product, the attribute vector is the keyword set ⁇ “red”, “long sleeve”, “floral” ” ⁇ .
  • the image generating apparatus 1000 may generate a product image corresponding to attributes of a specific product, which is output from the image generation model, by inputting the generated attribute vector into a predetermined image generation model.
  • the predetermined image generation model may be a model based on a pre-trained neural network to receive an attribute vector corresponding to a keyword set and output a product image corresponding to the input attribute vector.
  • a model such as a convolutional neural network (CNN) may be used as an image generation model, but is not limited thereto.
  • the image generating apparatus 1000 may train the image generating model competitively with the image discrimination model described later in operation 240.
  • the image generating apparatus 1000 may train the image generating model to output a fake image that is difficult to distinguish from the real image, such that the fake image output from the image generating model is not fake or real. have.
  • the image generating apparatus 1000 may train the image discrimination model to better determine whether the fake image generated using the image generating model is fake or real.
  • the competitive learning method used by the image generating apparatus 1000 to train the image generation model and the image discrimination model includes a GAN (Generative Adversarial Network), a DCGAN (Deep Convolutional GAN), and a cGAN (Conditional GAN). It may be a method used to competitively learn generators and discriminators, such as, but not limited to.
  • the product image corresponding to the attributes of a specific product generated by the image generating apparatus 1000 using the image generation model may be an image representing a specific product in which the corresponding attributes are reflected.
  • the product image is an image representing a specific product, and when the specific product is a clothing product, it may be an image representing a dress, coat, pants, shoes, and the like.
  • the attributes of the clothing product are attributes represented by a keyword set such as ⁇ “red”, “long sleeve”, “floral” ⁇
  • the image of the clothing product output by the image generation model is red in color.
  • Sleeve length is a long sleeve, and may be an image of a clothing product such as a dress, a shirt, or the like having a floral pattern in a pattern.
  • the attribute vector input to the image generation model corresponds to a keyword set including a plurality of keywords representing attributes of a specific product obtained in operation 210. Therefore, the image generating apparatus 1000 may generate a product image corresponding to attributes of a specific product represented by a plurality of keywords obtained in operation 210 by inputting an attribute vector into the image generation model.
  • the image generating apparatus 1000 may generate one or more different product images representing attributes of a specific product.
  • the image generating apparatus 1000 may acquire a keyword set including a plurality of keywords representing attributes of a specific product, and generate a plurality of different product images corresponding to the obtained keyword set.
  • the different product images generated by the image generating apparatus 1000 may all correspond to one keyword set, but attributes other than attributes indicated by a plurality of keywords included in one keyword set may be different product images. .
  • the image generating apparatus 1000 obtains ⁇ “red”, “long sleeve”, “floral” ⁇ as a keyword set, which includes a plurality of keywords representing attributes of a clothing product, and the color is red.
  • Sleeve length is a long sleeve, it is possible to create different clothing product images having a floral pattern as a pattern.
  • the generated clothing product images can all correspond to attributes represented by ⁇ “red”, “long sleeve”, “floral” ⁇ , but the color represented by ⁇ “red”, “long sleeve”, “floral” ⁇ ,
  • the clothing product images may have different attributes, such as the shape of the neck, the overall length of the clothing, and the outline style of the clothing, other than attributes such as sleeve length and pattern.
  • the image generating apparatus 1000 determines whether the product image is a fake image output from the image generation model by inputting product image and keyword set data output from the image generation model into a predetermined image discrimination model. can do.
  • the predetermined image discrimination model is a model based on a pre-trained neural network to receive a product image and determine whether the input image is a fake image output from an image generation model or a real image representing a specific product.
  • the fake image may mean an image output from an image generation model
  • a real image is a real image representing a specific product and used as learning data in an image discrimination model (eg, a specific image). It can mean a real product image, such as a picture of a product).
  • the image discrimination model a model such as a convolutional neural network (CNN) may be used, and the image discrimination model may include a plurality of layers that extract features from the image using a convolution operation.
  • the image discrimination model may use a plurality of layers to output a probability value indicating whether the input product image is a fake image output from the image generation model, as a discrimination result.
  • the probability value that the image discrimination model outputs as a discrimination result may have a larger value as the input product image is closer to the real image. That is, the image discrimination model outputs '1' as a discrimination result when the input product image is determined as a real image, and the input product image is a fake image (for example, a fake image output from the image generation model). In case of discrimination, '0' may be output as a discrimination result. Therefore, the probability value that the image discrimination model outputs as a discrimination result may be a value indicating the degree to which the input product image is close to the real thing.
  • the image generating apparatus 1000 trains the image discrimination model by applying data on a keyword set and at least one of a product image output from the image generation model and a real product image corresponding to attributes of a specific product to the image discrimination model. Can. That is, the image generating apparatus 1000 may use a product image output from the image generation model and an actual product image corresponding to attributes of a specific product as training data of the image discrimination model.
  • the image discrimination model may learn the characteristics of the fake product image output from the image generation model by using product data output from the image generation model and keyword set data corresponding to the product image as training data.
  • the image discrimination model may learn about characteristics of the real image by using data regarding a real product image corresponding to attributes of a specific product and a keyword set corresponding to the corresponding product image as training data.
  • the image discrimination model may be competitively learned together with the image generation model by the image generation device 1000.
  • the image discrimination model is trained to output '0' as a discrimination result for the product image output from the input image generation model, and vice versa
  • the generation model may be trained to output a product image close to a real image so that the image discrimination model outputs '1' as a discrimination result for the product image output from the image creation model.
  • the image discrimination model may use data regarding a keyword set in discrimination.
  • the keyword set is a keyword set corresponding to the attribute vector input by the image generation model to output the product image, and may be a keyword set corresponding to the product image input by the image discrimination model.
  • the image discrimination model receives data related to a keyword set, and in determining whether the input product image is a fake image output from the image generation model, attributes of a specific product represented by the keyword set may be considered. For example, if a specific product is a clothing product, and the keyword set is ⁇ “red”, “long sleeve”, “floral” ⁇ , the image discrimination model determines the color, sleeve length, and pattern among the attributes of the received clothing product image. By focusing, you can determine the authenticity of the image.
  • the data related to the keyword set used by the image discrimination model for determination may refer to data generated by processing the keyword set.
  • the data related to the keyword set may include a vector set corresponding to the keyword set output from the embedding model, by inputting the keyword set into a predetermined embedding model.
  • the data related to the keyword set may include data generated by processing a vector set corresponding to the keyword set.
  • the image generating apparatus 1000 may update the image generating model based on the determination result.
  • the image generating apparatus 1000 may determine whether the input image is a fake image output from the image generating model or a real image related to a specific product by inputting a product image output from the image generating model into the image discrimination model. Can be back propagated to the image generation model.
  • the image generating apparatus 1000 is a neural network that is the basis of the image generation model so that the image generation model can output a product image close to a real image based on the determination result of the image discrimination model for the product image output by the image generation model. By adjusting the weight value of, the image generation model can be updated.
  • FIG 3 is a diagram illustrating an example in which the image generating apparatus 1000 according to some embodiments generates an image based on keywords.
  • the image generating apparatus 1000 may obtain a keyword set 310 including a plurality of keywords representing attributes of a clothing product.
  • the keyword set 310 includes “v neck”, “long sleeve”, “floral”, and “white” as keywords indicating attributes of the clothing product.
  • the image generating device 1000 may acquire the keyword set 310 through user input through an input interface, data received from an external device through a communication interface, data identified in a file stored in a memory, and the like.
  • the image generating apparatus 1000 may generate an attribute vector 320 corresponding to the keyword set 310 based on the plurality of keywords in the obtained keyword set 310.
  • the image generating apparatus 1000 may generate the product image 340 output from the image generating model by inputting the generated attribute vector 320 into the image generating model 330.
  • the product image 340 output from the image generation model 330 may correspond to attributes of clothing products corresponding to a plurality of keywords in the keyword set 310.
  • a dress image in which the neck portion is a v neck, a sleeve with a long sleeve, a floral pattern, and a color is white , It was output from the image generation model 330 as a product image 340 corresponding to the keyword set 310.
  • the image generating apparatus 1000 inputs the data 315 related to the product image 340 and the keyword set 310 output from the image generation model 330 into the image discrimination model 350, thereby allowing the product image 340 to be generated. It is possible to determine whether the fake image output from the image generation model 330.
  • the image discrimination model 350 may output a probability value indicating whether the product image 340 input as the discrimination result 360 is a fake image output from the image generation model 330 as the discrimination result 360. For example, the image discrimination model 350 may output 0.68 as the discrimination result 360. Since the output probability value 0.68 is greater than 0.5, the output result 360 indicates that the input product image 340 is closer to the real product image than the fake image output from the image generation model 330. It is judged.
  • the image discrimination model 350 receives the data 315 related to the keyword set, and determines whether the input product image 340 is a fake image output from the image generation model 330. ) Can take into account the attributes of a particular product.
  • the product image 340 input by focusing on the attributes of the clothing product represented by the keyword set 310 ⁇ “v neck”, “long sleeve”, “floral”, “white” ⁇ is an image. It can be determined whether it is a fake product image or a real product image output from the generation model 330.
  • the image generating apparatus 1000 may update the image generating model 330 based on the determination result 360. For example, the image generation apparatus 1000 may back propagation the determination result 360 to the image generation model 330.
  • the image generating apparatus 1000 sets the weight value of the neural network that is the basis of the image generating model 330 so that the image generating model 330 outputs a product image close to the real image based on the determination result 360. By adjusting, the image generation model 330 can be updated.
  • FIG. 4 is a flowchart of a method of generating an attribute vector corresponding to a keyword set by the image generating apparatus 1000 according to some embodiments.
  • the image generating apparatus 1000 may generate a vector set corresponding to the keyword set using a predetermined embedding model.
  • the image generating apparatus 1000 may generate a plurality of vectors corresponding to a plurality of keywords, which are output from the embedding model, by inputting a plurality of keywords in the keyword set into a predetermined embedding model.
  • the generated plurality of vectors may constitute a vector set corresponding to a keyword set.
  • the image generating apparatus 1000 may generate a plurality of vectors corresponding to the plurality of keywords by generating vectors corresponding to each of the keywords included in the plurality of keywords. For example, when the keyword set is ⁇ “red”, “long sleeve”, “floral” ⁇ , the image generating apparatus 1000 may include a vector a 1 corresponding to “red” and a vector a corresponding to “long sleeve” 2 , and vector a 3 corresponding to “floral” may be generated, respectively.
  • the predetermined embedding model may be a model that is pre-trained to receive a keyword representing a property of a specific product and output a vector corresponding to the input keyword.
  • the embedding model may be a model based on a pre-trained neural network.
  • a model such as a convolutional neural network (CNN), a deep neural network (DNN), a recurrent neural network (RNN), or a bidirectional recurrent deep neural network (BRDNN) may be used as an embedding model, but is not limited thereto.
  • a vector corresponding to a product image representing attributes of a specific product and a plurality of vectors in a vector set corresponding to a keyword set representing attributes of a specific product are arithmetic-averaged in advance so that they are similarly located in a vector space. It can be a model.
  • the apparatus 1000 for generating an image may generate an attribute Gaussian distribution corresponding to the vector set, based on the plurality of vectors in the generated vector set.
  • the image generating apparatus 1000 may generate a Gaussian distribution set corresponding to the vector set.
  • the generated Gaussian distribution set may include a plurality of Gaussian distributions corresponding to a plurality of vectors in the vector set.
  • the image generating apparatus 1000 may generate a plurality of Gaussian distributions corresponding to the plurality of vectors by generating a corresponding Gaussian distribution for each vector included in the plurality of vectors in the vector set.
  • the vector set ⁇ a 1, a 2, a 3 ⁇ Gaussian distribution corresponding to image generating unit 1000, when the is in the Gaussian distribution b 1, a 2 corresponding to a 1 b 2, and a 3
  • a Gaussian distribution b 3 corresponding to may be respectively generated.
  • the image generating apparatus 1000 may generate a Gaussian distribution corresponding to the input vector, which is output from the Gaussian distribution mapping model, by inputting a vector to a predetermined Gaussian distribution mapping model.
  • the Gaussian distribution mapping model may be a pre-trained model that receives a vector and outputs an average vector and a variance (eg, a covariance matrix) representing a Gaussian distribution corresponding to the input vector.
  • the Gaussian distribution mapping model may be a model based on a pre-trained neural network.
  • the image generating apparatus 1000 may generate an attribute Gaussian distribution corresponding to the keyword set based on a plurality of Gaussian distributions in the Gaussian distribution set corresponding to the vector set.
  • the image generating apparatus 1000 may generate an attribute Gaussian distribution by calculating an average vector and a variance representing the attribute Gaussian distribution based on each of the average vectors and variances each representing the respective Gaussian distributions included in the plurality of Gaussian distributions. have.
  • a plurality of Gaussian distributions includes Gaussian distribution b 1 , Gaussian distribution b 2 , and Gaussian distribution b 3
  • mean vector c 1 and variance d 1 represent b 1
  • mean vector c 2 and variance d 2 represents b 2
  • the average vector c 1 and variance d 1 may represent b 1 .
  • the image generating apparatus calculates the average vector and the variance representing the attribute Gaussian distribution based on the average vectors (c 1 , c 2 , c 3 ) and the variances (d 1 , d 2 , d 3 ) representing the plurality of Gaussian distributions.
  • the image generating apparatus 1000 may generate an attribute Gaussian distribution by using a product of Gaussian operation.
  • the Gaussian product operation can be defined by the following [Equation 1].
  • ⁇ i may mean an average vector of any Gaussian distribution in the Gaussian distribution set. Further, ⁇ i may mean a covariance matrix of an arbitrary Gaussian distribution in the Gaussian distribution set. ⁇ may mean an average vector of the attribute Gaussian distribution. ⁇ may mean a covariance matrix of an attribute Gaussian distribution.
  • the image generating apparatus 1000 inputs an average vector and a covariance matrix of a Gaussian distribution in a Gaussian distribution set to a Gaussian product operation defined by [Equation 1], and outputs from [Equation 1], the average of the attribute Gaussian distribution Vectors and covariance matrices can be obtained.
  • the image generating apparatus 1000 may generate an attribute vector corresponding to the keyword set based on the attribute Gaussian distribution.
  • the image generating apparatus 1000 may generate an attribute vector corresponding to the keyword set by sampling the attribute vector from the attribute Gaussian distribution.
  • the attribute vector is input to the image generation model as an input noise vector, and may be used to generate a product image corresponding to attributes of a specific product represented by a keyword set.
  • FIG. 5 is a diagram illustrating an example in which the image generating apparatus 1000 according to some embodiments generates an attribute vector corresponding to a keyword set.
  • the image generating apparatus 1000 may obtain a keyword set 510 including a plurality of keywords representing attributes of a clothing product.
  • the keyword set 510 is a keyword representing an attribute of a clothing product, and includes v-neck 512, long sleeve 514, floral 516, and white 518.
  • the image generating apparatus 1000 may generate a vector set 520 corresponding to the keyword set 510 using a predetermined embedding model.
  • the embedding model may be a model that is pre-trained to receive a keyword representing an attribute of a clothing product and output a vector corresponding to the input keyword.
  • the image generating apparatus 1000 may generate a vector corresponding to each keyword in the keyword set 510 by inputting the keyword set 510 into the embedding model.
  • the image generating device 1000 embeds keywords in the keyword set 510, such as v-neck 512, long sleeve 514, floral 516, and white 518.
  • keywords such as v-neck 512, long sleeve 514, floral 516, and white 518.
  • vector a 1 (522) corresponding to v-neck (512)
  • vector a 2 corresponding to long sleeve (514)
  • vector a 3 526
  • a 4 528
  • the image generating apparatus 1000 may generate a Gaussian distribution set 530 corresponding to the vector set 520.
  • the image generating apparatus 1000 may generate a Gaussian distribution set 530 output from the Gaussian distribution mapping model by inputting the vector set 520 into a predetermined Gaussian distribution mapping model.
  • Each of the Gaussian distribution sets 532, 534, 536, and 538 in the generated Gaussian distribution set 530 may correspond to each of the vectors 522, 524, 526, 528 in the vector set 520.
  • the image generating apparatus 1000 may generate an attribute Gaussian distribution 540 corresponding to the keyword set 510 based on a plurality of Gaussian distributions in the Gaussian distribution set 530.
  • the image generating apparatus 1000 may generate an attribute Gaussian distribution 540 using a Gaussian product operation that can be defined by Equation 1 described above.
  • the image-generating autonomous 1000 may generate an attribute vector 550 corresponding to the keyword set 510 by sampling the attribute vector 550 from the generated attribute Gaussian distribution 540.
  • the generated attribute vector 550 is input to the image generation model 330 as an input noise vector, and may be used to generate a product image 340 corresponding to attributes of the clothing product indicated by the keyword set 510.
  • the image generating apparatus 1000 may generate an attribute vector corresponding to a keyword set using a Gaussian product operation, and use the attribute vector as an input noise vector input to the image generation model. Through this, the image generating apparatus 1000 may generate various product images corresponding to the keyword set.
  • FIG. 6 is a flowchart of a method for determining whether the generated image is a fake image by considering the set of keywords on which the image generating apparatus 1000 is based on image generation.
  • the image generating apparatus 1000 may identify a first image output from the first layer among a plurality of layers included in the image discrimination model.
  • the first image may be composed of a plurality of regions.
  • the image discrimination model may include a plurality of layers that extract features from the image using a convolution operation.
  • the plurality of layers may be a plurality of convolutional layers constituting a convolutional neural network (CNN).
  • CNN convolutional neural network
  • the convolution layer can extract characteristics of the input image by down-sampling the input image using a convolution operation.
  • a filter for feature extraction may be used to extract features using a convolution operation, and a feature corresponding to the region may be extracted by applying a filter to a specific region of the input image during the convolution operation.
  • the convolution layer may output an image representing the extracted features, and the output image may be composed of a combination of a plurality of feature maps, depending on the number of filters used in the convolution operation.
  • Each of the feature maps included in the plurality of feature maps may be composed of a predetermined number of regions, and each region included in the plurality of regions of the feature map may correspond to a number representing the extracted feature. Therefore, the image output from the convolution layer may be composed of a plurality of regions of a predetermined number, and each region included in the plurality of regions may correspond to an n-dimensional feature vector of numbers representing extracted features.
  • the n-dimensional may be the number of feature maps constituting the image output from the convolution layer.
  • the image output from the convolution layer may be defined as a plurality of feature vectors corresponding to a plurality of regions constituting the image.
  • a combination of feature maps output from the first layer among the plurality of layers included in the image discrimination model is referred to as a first image, and the first image includes a plurality of regions corresponding to a plurality of regions constituting the first image. It can be defined as feature vectors.
  • the image generating apparatus 1000 may identify a plurality of feature vectors corresponding to a plurality of regions constituting the first image by identifying the first image output from the first layer among the plurality of layers included in the image discrimination model. Can.
  • the image generating apparatus 1000 corresponds to a plurality of regions in the first image, based on a plurality of vectors in the vector set corresponding to the keyword set and a plurality of feature vectors corresponding to the plurality of regions in the first image.
  • a plurality of sets of weight coefficients can be generated.
  • the image generating apparatus 1000 corresponds to a plurality of regions in the first image by inputting a plurality of vectors in the vector set corresponding to the keyword set and a plurality of feature vectors corresponding to the plurality of regions in the first image into a predetermined function.
  • a plurality of sets of weight coefficients can be generated.
  • the plurality of vectors in the vector set may be input to a predetermined function while projecting the dimensions of the feature vectors included in the plurality of feature vectors using a projection matrix.
  • a predetermined function for generating a plurality of weighting coefficient sets may include a soft max function, and the plurality of weighting coefficient sets are generated using a soft max function represented by Equation 2 below. Can be.
  • h j may mean a feature vector corresponding to an arbitrary region among a plurality of regions in the first image.
  • a i ' may mean any projected vector among a plurality of projected vectors in the projected vector set.
  • h j ⁇ a i ' input to the exponential function may mean the dot product of h j and a i ' .
  • K may mean the number of vectors included in the vector set.
  • ⁇ ji may mean a weighting coefficient set corresponding to a region in a first image corresponding to h j among weighting coefficient sets included in a plurality of weighting coefficient sets. Each set of weight coefficients may include weight coefficients as many as the number of vectors included in the vector set.
  • Each of the weight coefficient sets included in the plurality of weight coefficient sets may correspond to each of the areas included in the plurality of areas in the first image. Accordingly, the weighting coefficient set may be generated as many as the number of areas included in the plurality of areas in the first image.
  • the image generating apparatus 1000 may obtain a plurality of context vectors corresponding to a plurality of regions in the first image by applying each of the weight coefficient sets included in the plurality of weight coefficient sets to the vector set.
  • the image generating apparatus 1000 may weight a plurality of vectors in the vector set by applying each of the weight coefficient sets included in the plurality of weight coefficient sets to each of the vectors in the vector set.
  • the image generating apparatus 1000 may obtain a plurality of context vectors corresponding to a plurality of regions in the first image by weighting the plurality of vectors in the vector set based on the set of weighting coefficients.
  • the vectors in the vector set to be weighted can be weighted while projecting in the dimensions of the feature vectors included in the plurality of feature vectors using a projection matrix.
  • a plurality of projected vectors in the projected vector set can be weighted using [Equation 3] below.
  • ⁇ ji , a i ' , K may correspond to ⁇ ji , a i ' , K in [Equation 2] described above.
  • c j may mean a context vector corresponding to an arbitrary region among a plurality of regions in the first image.
  • the generated plurality of context vectors are data generated based on a vector set corresponding to a keyword set representing attributes of a specific product and a plurality of feature vectors of the first image, and information about attributes of a specific product represented by the keyword set May be reflected data.
  • the image generating apparatus 1000 associates a second image obtained by connecting each of the context vectors included in the plurality of context vectors with each of the feature vectors included in the plurality of feature vectors, to a second layer of the plurality of layers. You can type.
  • the image generating apparatus 1000 may connect each of the context vectors included in the generated plurality of context vectors with each of the feature vectors included in the plurality of feature vectors.
  • the connection may mean concatenating a plurality of vectors into a single vector.
  • the joining of two vectors may mean that one vector (n-dimensional) of the two vectors is combined with the other vector (m-dimensional) to generate an n+m-dimensional vector.
  • the image generating apparatus 1000 may connect the context vector with the corresponding feature vector.
  • the context vector and the feature vector may respectively correspond to one of a plurality of regions in the first image, and the context vector and the feature vector corresponding to the same region may correspond to each other.
  • the context vector c j and the feature vector h j corresponding to one of a plurality of regions in the first image correspond to each other, and the image generating apparatus 1000 may connect c j and h j .
  • the image generating apparatus 1000 may obtain a second image by connecting each of the context vectors included in the plurality of context vectors with each of the feature vectors included in the plurality of feature vectors.
  • the second image is an image in which a set of feature vectors corresponding to the first image is connected to a set of context vectors generated based on the vector set, and may be an image in which the attributes of a specific product represented by the keyword set are reflected in the first image. .
  • the image generating apparatus 1000 may input the second image to the second layer among the plurality of layers of the image discrimination model.
  • the second layer may be a layer consecutive to the first layer, which receives an image processed from the first layer or an image processed from the first layer among a plurality of layers of the image discrimination model.
  • the second layer is an image in which the first image is processed based on data related to the keyword set.
  • the second layer may receive a second image reflecting attributes of a specific product represented by the keyword set, and features of the input second image. Can be extracted. Therefore, in the layer after the second layer, the feature extraction process may be performed while the attributes of the specific product indicated by the keyword set are reflected.
  • the image generating apparatus 1000 may obtain the discrimination result considering the attributes of a specific product represented by the keyword set, which is the basis of the image generation, by inputting data related to the keyword set together with the product image into the image discrimination model.
  • FIG. 6 the operations of FIG. 6 are described as operations performed directly by the image generating device 1000, but are not limited thereto, and the image generating device 1000 may set data regarding product images and keyword sets. By inputting the to the image discrimination model, it may be operations performed in the image discrimination model.
  • FIG. 7 is a diagram illustrating an example in which the image generating apparatus 1000 determines whether the generated image is a fake image in consideration of a keyword set that is the basis of image generation.
  • the image generating apparatus 1000 inputs the product image 710 into the image determination model 700 to determine whether the product image 710 output from the image generation model 330 is a fake image. can do.
  • the product image 710 input to the image discrimination model 700 may be input to the first layer among the plurality of layers 702 included in the image discrimination model 700.
  • the image generating apparatus 1000 is data related to the keyword set 730 that is the basis for generating the product image 710, and inputs the vector set 740 corresponding to the keyword set 730 into the image discrimination model 700. Can.
  • the image generating apparatus 1000 may identify the first image 720 output from the first layer 704 among the plurality of layers 702 in the image discrimination model 700.
  • the first image 720 may be composed of a plurality of regions, and each region included in the plurality of regions may correspond to a feature vector representing features extracted from the image input to the first layer 704. .
  • the image generating apparatus 1000 corresponds to a plurality of regions in the first image 720 based on a plurality of vectors in the vector set 740 and a plurality of feature vectors corresponding to the plurality of regions in the first image 720.
  • a plurality of sets of weight coefficients can be generated (750).
  • the plurality of weighting coefficient sets may be generated by inputting a plurality of vectors in a vector set and a plurality of feature vectors corresponding to a plurality of regions in the first image 720 into a predetermined function based on soft max.
  • the image generating apparatus 1000 obtains a plurality of context vectors corresponding to a plurality of regions in the first image 720 by applying each of the set of weighting coefficients included in the plurality of weighting coefficient sets to the vector set 740 (760) )can do.
  • applying each of the weight coefficient sets included in the plurality of weight coefficient sets to the vector set 740 applies each of the weight coefficient sets included in the plurality of weight coefficient sets to each of the vectors in the vector set, thereby It may be a weighted sum of a plurality of vectors.
  • the image generating apparatus 1000 obtains the second image 780 by connecting 770 each of the context vectors included in the plurality of context vectors to each of the feature vectors included in the plurality of feature vectors of the first image 720.
  • the connection 770 may be to concatenate each of the context vectors included in the plurality of context vectors to correspond to each of the feature vectors included in the plurality of feature vectors of the first image 720.
  • the image generating apparatus 1000 may input the acquired second image 780 into the second layer 706 that is continuous to the first layer 704 among the plurality of layers 702 of the image discrimination model 700. .
  • the second layer 706 receiving the second image 780 may extract features from the second image reflecting the attributes of a specific product represented by the keyword set 730 and output the third image, Can be processed through a plurality of layers of the image discrimination model.
  • the image generating apparatus 1000 inputs the vector set 740 into the image discrimination model 700 as data related to the keyword set together with the product image 710, thereby setting the keyword that became the basis of the product image 710 generation.
  • a determination result 790 considering attributes of a specific product represented by 730 may be obtained.
  • FIG. 7 the operations of FIG. 7 are described as operations directly performed by the image generating apparatus 1000, but are not limited thereto, and the image generating apparatus 1000 has data related to product images and keyword sets.
  • the image discrimination model By inputting the to the image discrimination model, it may be operations performed in the image discrimination model.
  • FIG. 8 is a block diagram of an image generating apparatus 1000 according to some embodiments.
  • the image generating apparatus 1000 may include a memory 1100, an input interface 1200, an output interface 1300, and a processor 1400.
  • the memory 1100 may store a program for controlling the operation of the image generating device 1000.
  • the memory 1100 may include at least one instruction for controlling the operation of the image generating device 1000.
  • the memory 1100 may store keyword set data, vector set data, image data of a specific product, and the like, which may be used to generate an image.
  • the memory 1100 may store, for example, an image generation model for generating an image based on keywords, an image determination model for determining whether the image is a fake image output from the image generation model, or the like.
  • Programs stored in the memory 1100 may be classified into a plurality of modules according to their functions.
  • the memory 1100 is a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (for example, SD or XD memory, etc.), RAM (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (ROM, Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , It may include at least one type of storage medium of the optical disk.
  • the input interface 1200 may receive a user input for inputting keywords indicating attributes of a specific product.
  • the input interface 1200 includes a key pad, a dome switch, and a touch pad (contact capacitive type, pressure resistive film type, infrared sensing type, surface ultrasonic conduction type, integral type) Tension measurement method, piezo effect method, etc.), a jog wheel, a jog switch, and the like, but is not limited thereto.
  • the input interface 1200 may receive data including keywords representing attributes of a specific product from an external device.
  • the input interface 1200 may include a communication interface capable of receiving data from an external device.
  • the communication interface included in the input interface 1200 may include one or more communication modules for communication with external devices.
  • the communication interface is a short-range wireless communication interface, a Bluetooth communication interface, a Bluetooth Low Energy (BLE) communication interface, a Near Field Communication interface, a WLAN (Wi-Fi) communication interface, and a Zigbee ) Communication interface, infrared (IrDA, infrared data association) communication interface, WFD (Wi-Fi Direct) communication interface, UWB (ultra wideband) communication interface, Ant+ communication interface, and the like, but are not limited thereto.
  • the output interface 1300 may output an image generated by the image generating apparatus 1000 based on keywords, a discrimination result output from the image discrimination model, and the like.
  • the output interface 1300 may include a display.
  • the display outputs image or keyword information.
  • the display and the touch pad are configured as a touch screen in a layer structure, the display may be used as an input device in addition to the output device.
  • the output interface 1300 may include a communication interface capable of transmitting data to an external device.
  • the input interface 1200 and the output interface 1300 may be implemented as one interface.
  • the processor 1400 may control the overall operation of the image generating apparatus 1000.
  • the processor 1400 may overall control the input interface 1200 and the output interface 1300 by executing programs stored in the memory 1100.
  • the processor 1400 may control the operation of the image generating apparatus 1000 in FIGS. 1 to 7 by controlling the input interface 1200 and the output interface 1300.
  • the processor 1400 may acquire a keyword set including a plurality of keywords representing attributes of a specific product.
  • the processor 1400 may generate an attribute vector corresponding to the keyword set based on a plurality of keywords in the keyword set.
  • the processor 1400 may generate a product image corresponding to attributes of a specific product, which is output from the image generation model, by inputting the generated attribute vector into a predetermined image generation model.
  • the processor 1400 may determine whether the product image is a fake image output from the image generation model by inputting product image and keyword set data output from the image generation model into a predetermined image discrimination model.
  • the processor 1400 may update the image generation model based on the determination result.
  • the processor 1400 may generate a vector set corresponding to the keyword set using a predetermined embedding model.
  • the processor 1400 may generate an attribute Gaussian distribution corresponding to the vector set, based on the plurality of vectors in the generated vector set.
  • the processor 1400 may generate an attribute vector corresponding to the keyword set based on the attribute Gaussian distribution.
  • the processor 1400 may generate a plurality of vectors corresponding to a plurality of keywords output from the embedding model by inputting a plurality of keywords in the keyword set into the embedding model.
  • the embedding model may be a model that has been previously trained to receive a keyword representing an attribute of a specific product and output a vector corresponding to the input keyword.
  • the processor 1400 may generate a set of Gaussian distributions corresponding to the vector set, including a plurality of Gaussian distributions corresponding to the plurality of vectors in the vector set.
  • the processor 1400 may generate an attribute Gaussian distribution corresponding to the keyword set based on a plurality of Gaussian distributions in the Gaussian distribution set.
  • the processor 1400 may calculate an average vector and a variance representing the attribute Gaussian distribution based on each of the average vectors and variances representing the respective Gaussian distributions included in the plurality of Gaussian distributions.
  • the processor 1400 may identify a first image, which is output from the first layer among a plurality of layers included in the image discrimination model, where the first image may be composed of a plurality of regions.
  • the processor 1400 includes a plurality of weight coefficients corresponding to a plurality of regions in the first image, based on a plurality of vectors in the vector set corresponding to the keyword set and a plurality of feature vectors corresponding to the plurality of regions in the first image. You can create a set.
  • the processor 1400 may obtain a plurality of context vectors corresponding to a plurality of regions in the first image by applying each set of weight coefficients included in the plurality of weight coefficient sets to the vector set.
  • the processor 1400 may input a second image obtained by connecting each of the context vectors included in the plurality of context vectors with each of the feature vectors included in the plurality of feature vectors, to the second layer of the plurality of layers.
  • the processor 1400 determines an image discrimination model based on the product image and one of the real product images corresponding to attributes of a specific product and a keyword set. By applying to the image discrimination model can be trained.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • Computer readable media may include computer storage media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는, 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법에 관한 것이다. 이미지 생성 장치는, 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합을 획득하고, 키워드 집합에 대응되는 속성 벡터를 생성하고, 생성된 속성 벡터를 이미지 생성 모델에 입력함으로써, 특정 상품의 속성들에 대응되는 상품 이미지를 생성하고, 생성된 상품 이미지 및 키워드 집합에 관한 데이터를, 소정의 이미지 판별 모델에 입력함으로써, 상품 이미지가 이미지 생성 모델로부터 출력된 가짜 이미지인지를 판별하고, 판별 결과에 기초하여, 이미지 생성 모델을 업데이트할 수 있다. 또한, 본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련될 수 있다.

Description

키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법
본 개시는 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
한편, 디자이너가 어떤 컨셉을 가지고 특정 상품을 디자인하는데 있어서, 해당 컨셉을 나타내는 기존에 없던 이미지가 참고할 필요가 있으며, 이에 따라, 특정 상품의 컨셉을 키워드로 입력 받아 해당 컨셉을 나타내는 새로운 이미지를 생성할 수 있는 기술이 요구되고 있다.
일부 실시예는, 특정 상품의 속성을 나타내는 키워드에 기초하여 특정 상품의 속성에 대응되는 상품 이미지를 생성할 수 있는, 이미지 생성 장치 및 방법을 제공할 수 있다.
도 1은, 일부 실시예에 따른 이미지 생성 장치(1000)가 키워드에 기초하여 이미지를 생성하는 방법을 도시한 개요도이다.
도 2는, 일부 실시예에 따른 이미지 생성 장치(1000)가 키워드에 기초하여 이미지를 생성하는 방법의 흐름도이다.
도 3은, 일부 실시예에 따른 이미지 생성 장치(1000)가 키워드에 기초하여 이미지를 생성하는 예시를 도시한 도면이다.
도 4는, 일부 실시예에 따른 이미지 생성 장치(1000)가 키워드 집합에 대응되는 속성 벡터를 생성하는 방법의 흐름도이다.
도 5는, 일부 실시예에 따른 이미지 생성 장치(1000)가 키워드 집합에 대응되는 속성 벡터를 생성하는 예시를 도시한 도면이다.
도 6은, 이미지 생성 장치(1000)가 이미지 생성의 기초가 된 키워드 집합을 고려하여, 생성된 이미지가 가짜 이미지인지 판별하는 방법의 흐름도이다.
도 7은, 이미지 생성 장치(1000)가 이미지 생성의 기초가 된 키워드 집합을 고려하여, 생성된 이미지가 가짜 이미지인지 판별하는 예시를 도시한 도면이다.
도 8은, 일부 실시예에 따른 이미지 생성 장치(1000)의 블록도이다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션을 실행함으로써 상기 이미지 생성 장치를 제어하는 프로세서를 포함하며, 상기 프로세서는, 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합을 획득하고, 상기 키워드 집합 내의 상기 복수의 키워드에 기초하여, 상기 키워드 집합에 대응되는 속성 벡터를 생성하고, 상기 생성된 속성 벡터를 소정의 이미지 생성 모델에 입력함으로써, 상기 이미지 생성 모델로부터 출력되는, 상기 특정 상품의 속성들에 대응되는 상품 이미지를 생성하고, 상기 이미지 생성 모델로부터 출력된 상품 이미지 및 상기 키워드 집합에 관한 데이터를, 소정의 이미지 판별 모델에 입력함으로써, 상기 상품 이미지가 상기 이미지 생성 모델로부터 출력된 가짜 이미지인지를 판별하고, 상기 판별 결과에 기초하여, 상기 이미지 생성 모델을 업데이트하는, 이미지 생성 장치를 제공할 수 있다.
또한, 본 개시의 제2 측면은, 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합을 획득하는 동작; 상기 키워드 집합 내의 상기 복수의 키워드에 기초하여, 상기 키워드 집합에 대응되는 속성 벡터를 생성하는 동작; 상기 생성된 속성 벡터를 소정의 이미지 생성 모델에 입력함으로써, 상기 이미지 생성 모델로부터 출력되는, 상기 특정 상품의 속성들에 대응되는 상품 이미지를 생성하는 동작; 상기 이미지 생성 모델로부터 출력된 상품 이미지 및 상기 키워드 집합에 관한 데이터를, 소정의 이미지 판별 모델에 입력함으로써, 상기 상품 이미지가 상기 이미지 생성 모델로부터 출력된 가짜 이미지인지를 판별하는 동작을 포함하는, 이미지 생성 방법을 제공할 수 있다.
또한, 본 개시의 제 3 측면은, 제 2 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 포함하는 컴퓨터 프로그램 장치를 제공할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
이하 첨부된 도면들을 참고하여 본 개시의 작용 원리 및 실시예들에 대해 설명한다.
도 1은, 일부 실시예에 따른 이미지 생성 장치(1000)가 키워드에 기초하여 이미지를 생성하는 방법을 도시한 개요도이다.
도 1을 참조하면, 이미지 생성 장치(1000)는 특정 상품의 속성을 나타내는 키워드 또는 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는 키워드 집합을 입력 받는다. 예를 들어, 이미지 생성 장치(1000)는 의류 상품의 속성들을 나타내는 복수의 키워드를 포함하는 키워드 집합(110, 120)을 입력 받을 수 있다. 제1 키워드 집합(110)은 타이트한 스타일을 나타내는 키워드인 “Bodycon”, 및 짧은 소매를 나타내는 키워드인“Short sleeve”를 포함할 수 있다. 또한, 제2 키워드 집합(120)은 타이트한 스타일을 나타내는 키워드인 “Bodycon”, 빨간색을 나타내는 키워드인 “Red” 및 긴 소매를 나타내는 키워드인“Long sleeve”를 포함할 수 있다.
이미지 생성 장치(1000)는 입력 받은 의류 상품의 속성들을 나타내는 키워드 집합(110, 120)에 기초하여 의류 상품 이미지를 생성할 수 있다. 예를 들어, 도 1을 참조하면, 이미지 생성 장치(1000)는 제1 키워드 집합(110) 내의 키워드인‘Bodycon’ 및 ‘Short sleeve’에 대응되는 이미지로서 짧은 소매의 타이트한 스타일의 여성복 이미지들(115)을 생성할 수 있다. 또한, 이미지 생성 장치(1000)는 제2 키워드 집합(120) 내의 키워드인 “Bodycon’, “Red”, 및 “Long sleeve”에 대응되는 이미지로서 긴 소매의 타이트한 스타일의 빨간색 여성복 이미지들(125)을 생성할 수 있다.
이미지 생성 장치(1000)는 특정 상품의 속성들을 나타내는 복수의 키워드를 입력 받고, 특정 상품의 속성들을 나타내는 상품 이미지들을 생성할 수 있다. 생성된 상품 이미지들은 특정 상품의 속성들에 대응되게 생성된 이미지들로서, 해당 속성들을 가지는 새로운 상품을 디자인하는데 참고가 되는 이미지들로 활용될 수 있다.
이를 위해, 이미지 생성 장치(1000)는 진짜 상품 이미지에 가까운 상품 이미지를 다양하게 생성할 필요가 있으며, 이미지 생성의 조건으로서 상품의 속성들을 나타내는 키워드 집합에 잘 부합하는 상품 이미지를 생성할 필요가 있다.
도 2는, 일부 실시예에 따른 이미지 생성 장치(1000)가 키워드에 기초하여 이미지를 생성하는 방법의 흐름도이다.
동작 210에서, 이미지 생성 장치(1000)는 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합을 획득할 수 있다.
특정 상품은 의류 상품, 문구 상품, 자동차 상품, 등의 상품 중 하나일 수 있다. 예를 들어, 특정 상품은 의류 상품일 수 있으며, 의류 상품은 셔츠, 니트, 바지, 등을 포함할 수 있다. 다만, 특정 상품은 전술한 의류 상품, 문구 상품, 등에 제한되지 않는다.
특정 상품의 속성은, 특정 상품을 나타내는 특징이나 성질을 의미할 수 있다. 예를 들어, 특정 상품이 의류 상품인 경우, 의류 상품의 색깔, 무늬, 소매 길이, 목 부분의 모양, 등이 특정 상품의 속성일 수 있다.
특정 상품의 속성을 나타내는 키워드는, 특정 상품의 특징이나 성질을 나타내는 키워드를 지칭할 수 있다. 예를 들어, 특정 상품이 의류 상품인 경우, 색깔 속성을 나타내는 키워드로서 “red”, “blue” 등, 소매 길이 속성을 나타내는 키워드로서 “long sleeve”, “short sleeve” 등, 무늬 속성을 나타내는 키워드로서 “floral”, “stripe” 등이 의류 상품의 속성을 나타내는 키워드일 수 있다.
키워드 집합은, 특정 상품의 속성들을 나타내는 복수의 키워드를 포함할 수 있다. 키워드 집합 내의 복수의 키워드는 특정 상품의 속성들을 나타내므로, 키워드 집합은 키워드 집합 내의 복수의 키워드에 의해 나타내지는 특정 상품의 속성들의 조합을 나타낼 수 있다. 예를 들어, 특정 상품이 의류 상품인 경우, 의류 상품의 속성을 나타내는 키워드로서 “red”, “long sleeve”, 및 “floral”을 포함하는 키워드 집합은, “red”, “long sleeve”, 및 “floral”의 조합인 색상은 빨간 색이고, 소매 길이는 긴 소매이며, 무늬로 꽃무늬를 가지는 속성을 나타낼 수 있다.
이미지 생성 장치(1000)는 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합을 사용자로부터 입력 받을 수 있다. 예를 들어, 이미지 생성 장치(1000)는 터치 스크린, 키보드, 마우스, 등의 입력 인터페이스를 포함할 수 있다. 이미지 생성 장치(1000)는 입력 인터페이스를 통해 사용자로부터 특정 상품의 속성들을 나타내는 복수의 키워드를 입력 받을 수 있다.
또한, 이미지 생성 장치(1000)는 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합을 외부 장치로부터 수신할 수 있다. 예를 들어, 이미지 생성 장치(1000)는 외부 장치와 데이터를 송수신하기 위한 통신 인터페이스를 포함할 수 있다. 이미지 생성 장치(1000)는 통신 인터페이스를 통해 외부 장치로부터 특정 상품의 속성들을 나타내는 복수의 키워드를 수신할 수 있다.
또한, 이미지 생성 장치(1000)는 메모리에 저장된 파일에서, 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는 키워드 집합을 식별할 수 있다.
동작 220에서, 이미지 생성 장치(1000)는 키워드 집합 내의 복수의 키워드에 기초하여, 키워드 집합에 대응되는 속성 벡터를 생성할 수 있다.
이미지 생성 장치(1000)는 획득한 키워드 집합 내의 복수의 키워드에 대응되는 복수의 벡터를 생성할 수 있다. 이미지 생성 장치(1000)는 생성한 복수의 벡터에 기초하여, 복수의 벡터를 포함하는 벡터 집합에 대응되는 속성 벡터를 생성할 수 있다. 여기서, 벡터 집합은 키워드 집합에 대응되므로, 속성 벡터는 키워드 집합에 대응될 수 있다. 이하 명세서 전체에서, “속성 벡터”는 키워드 집합에 대응되는 벡터로서, 후술하는 이미지 생성 모델에 입력되는 입력 노이즈 벡터를 의미할 수 있다.
속성 벡터는 키워드 집합에 대응되므로, 속성 벡터는 키워드 집합 내의 복수의 키워드가 나타내는 특정 상품의 속성들의 조합에 대응될 수 있다. 예를 들어, 키워드 집합이 특정 상품의 속성을 나타내는 키워드로서 “red”, “long sleeve”, 및 “floral”을 포함하는 경우, 속성 벡터는 키워드 집합 {“red”, “long sleeve”, “floral”}에 대응될 수 있다.
동작 220과 관련하여 이미지 생성 장치(1000)가 속성 벡터를 생성하는 자세한 동작은 도 4에 대한 내용에서 상술하도록 한다.
동작 230에서, 이미지 생성 장치(1000)는 생성된 속성 벡터를 소정의 이미지 생성 모델에 입력함으로써, 이미지 생성 모델로부터 출력되는, 특정 상품의 속성들에 대응되는 상품 이미지를 생성할 수 있다.
소정의 이미지 생성 모델은, 키워드 집합에 대응되는 속성 벡터를 입력 받고, 입력된 속성 벡터에 대응되는 상품 이미지를 출력하도록, 미리 학습된 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예를 들어, CNN(Convolutional Neural Network)과 같은 모델이 이미지 생성 모델로서 사용될 수 있으나, 이에 한정되지 않는다.
이미지 생성 장치(1000)는 이미지 생성 모델을, 동작 240에서 후술하는 이미지 판별 모델과 경쟁적으로 학습시킬 수 있다. 이미지 생성 장치(1000)는, 이미지 생성 모델에서 출력된 가짜 이미지가, 가짜인지 진짜인지 이미지 판별 모델이 판별할 수 없을 정도로, 진짜 이미지와 구별이 어려운 가짜 이미지를 출력하도록 이미지 생성 모델을 학습시킬 수 있다. 또한, 이미지 생성 장치(1000)는, 이미지 생성 모델을 이용하여 생성된 가짜 이미지가 가짜인지 진짜인지 더 잘 판별할 수 있도록 이미지 판별 모델을 학습시킬 수 있다.
이와 같이 이미지 생성 장치(1000)가 이미지 생성 모델과 이미지 판별 모델을 학습시키는데 사용하는 경쟁적 학습 방법은, 인공 신경망의 일종인 GAN(Generative Adversarial Network), DCGAN(Deep Convolutional GAN), cGAN(Conditional GAN) 등의 생성자(Generator) 및 판별자(Discriminator)를 경쟁적으로 학습시키는데 이용되는 방법일 수 있으며, 이에 한정되지 않는다.
이미지 생성 장치(1000)가 이미지 생성 모델을 이용하여 생성하는 특정 상품의 속성들에 대응되는 상품 이미지는, 해당 속성들이 반영된 특정 상품을 나타내는 이미지일 수 있다. 여기서, 상품 이미지는 특정 상품을 나타내는 이미지로서, 특정 상품이 의류 상품인 경우, 드레스, 코트, 바지, 신발 등을 나타내는 이미지일 수 있다. 예를 들어, 의류 상품의 속성들이 {“red”, “long sleeve”, “floral”}과 같은 키워드 집합에 의해 나타내어지는 속성들인 경우, 이미지 생성 모델이 출력하는 의류 상품 이미지는, 색상은 빨간 색이고, 소매 길이는 긴 소매이며, 무늬로 꽃무늬를 가지는 드레스, 셔츠, 등의 의류 상품 이미지일 수 있다.
이미지 생성 모델에 입력되는 속성 벡터는, 동작 210에서 획득된 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는 키워드 집합에 대응된다. 따라서, 이미지 생성 장치(1000)는 이미지 생성 모델에 속성 벡터를 입력함으로써, 동작 210에서 획득된 복수의 키워드가 나타내는 특정 상품의 속성들에 대응되는 상품 이미지를 생성할 수 있다.
이미지 생성 장치(1000)는 특정 상품의 속성들을 나타내는 서로 다른 상품 이미지를 하나 이상 생성할 수 있다. 이미지 생성 장치(1000)는 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는 하나의 키워드 집합을 획득하고, 획득된 하나의 키워드 집합에 대응되는 복수의 서로 다른 상품 이미지를 생성할 수 있다. 이미지 생성 장치(1000)가 생성한 서로 다른 상품 이미지들은 모두 하나의 키워드 집합에 대응될 수 있지만, 하나의 키워드 집합에 포함된 복수의 키워드들이 나타내는 속성들 이외의 속성들이 서로 다른 상품 이미지들일 수 있다.
예를 들어, 이미지 생성 장치(1000)는 의류 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합으로 {“red”, “long sleeve”, “floral”}를 획득하고, 색상은 빨간 색이고, 소매 길이는 긴 소매이며, 무늬로 꽃무늬를 가지는 서로 다른 의류 상품 이미지들을 생성할 수 있다. 생성된 의류 상품 이미지들은, 모두 {“red”, “long sleeve”, “floral”}가 나타내는 속성들에 대응될 수 있지만, {“red”, “long sleeve”, “floral”}가 나타내는 색상, 소매 길이, 무늬와 같은 속성들 이외의 목 부분의 모양, 의류의 전체 길이, 의류의 윤곽 스타일 등의 속성이 서로 다를 의류 상품 이미지들일 수 있다.
동작 240에서, 이미지 생성 장치(1000)는 이미지 생성 모델로부터 출력된 상품 이미지 및 키워드 집합에 관한 데이터를, 소정의 이미지 판별 모델에 입력함으로써, 상품 이미지가 이미지 생성 모델로부터 출력된 가짜 이미지인지를 판별할 수 있다.
소정의 이미지 판별 모델은, 상품 이미지를 입력 받아, 입력된 이미지가 이미지 생성 모델로부터 출력된 가짜 이미지인지 특정 상품을 나타내는 진짜 이미지인지 판별하도록, 미리 학습된 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 여기서, 가짜(fake) 이미지는 이미지 생성 모델로부터 출력된 이미지를 의미할 수 있으며, 진짜(real) 이미지는 특정 상품을 나타내는 진짜 이미지로서 이미지 판별 모델에서 학습 데이터로 이용된 이미지(예를 들어, 특정 상품을 촬영한 사진과 같은 실제 상품 이미지)를 의미할 수 있다.
이미지 판별 모델로는, CNN(Convolutional Neural Network)과 같은 모델이 사용될 수 있으며, 이미지 판별 모델은 컨볼루션 연산을 이용하여 이미지로부터 특징을 추출하는 복수의 레이어를 포함할 수 있다. 이미지 판별 모델은, 복수의 레이어를 이용하여, 입력된 상품 이미지가 이미지 생성 모델로부터 출력된 가짜 이미지인지를 나타내는 확률 값을, 판별 결과로 출력할 수 있다.
이미지 판별 모델이 판별 결과로서 출력하는 확률 값은, 입력된 상품 이미지가 진짜 이미지에 가까울수록 큰 값을 가질 수 있다. 즉, 이미지 판별 모델은, 입력된 상품 이미지를 진짜 이미지로 판별한 경우 판별 결과로서 '1'을 출력하고, 입력된 상품 이미지가 가짜 이미지(예를 들어, 이미지 생성 모델로부터 출력된 가짜 이미지)로 판별한 경우 판별 결과로서 '0'을 출력할 수 있다. 따라서, 이미지 판별 모델이 판별 결과로서 출력하는 확률 값은, 입력된 상품 이미지가 진짜에 가까운지의 정도를 나타내는 값일 수 있다.
이미지 생성 장치(1000)는 이미지 판별 모델에 이미지 생성 모델로부터 출력된 상품 이미지 및 특정 상품의 속성들에 대응되는 진짜 상품 이미지 중 적어도 하나 및 키워드 집합에 관한 데이터를 적용함으로써, 이미지 판별 모델을 학습시킬 수 있다. 즉, 이미지 생성 장치(1000)는 이미지 판별 모델의 학습 데이터로서 이미지 생성 모델로부터 출력된 상품 이미지 및 특정 상품의 속성들에 대응되는 실제 상품 이미지를 사용할 수 있다.
이미지 판별 모델은, 이미지 생성 모델로부터 출력된 상품 이미지 및 해당 상품 이미지에 대응되는 키워드 집합에 관한 데이터를 학습 데이터로 사용하여, 이미지 생성 모델로부터 출력되는 가짜 상품 이미지의 특징에 대해 학습할 수 있다. 또한, 이미지 판별 모델은, 특정 상품의 속성들에 대응되는 진짜 상품 이미지 및 해당 상품 이미지에 대응되는 키워드 집합에 관한 데이터를 학습 데이터로 사용하여, 진짜 이미지의 특징에 대해 학습할 수 있다.
또한, 전술한 바와 같이, 이미지 판별 모델은 이미지 생성 장치(1000)에 의해 이미지 생성 모델과 함께 경쟁적으로 학습될 수 있다. 경쟁적 학습을 이미지 판별 모델이 판별 결과로서 출력하는 확률 값과 연관시켜 설명하면, 이미지 판별 모델은 입력 받은 이미지 생성 모델로부터 출력된 상품 이미지에 대해 판별 결과로서 '0'을 출력하도록 학습되고, 반대로 이미지 생성 모델은 이미지 생성 모델로부터 출력된 상품 이미지에 대해 이미지 판별 모델이 판별 결과로서 '1'을 출력하도록 진짜 이미지에 가까운 상품 이미지를 출력하도록 학습될 수 있다.
이미지 판별 모델은, 판별을 하는데 있어서 키워드 집합에 관한 데이터를 이용할 수 있다. 여기서 키워드 집합은, 이미지 생성 모델이 상품 이미지를 출력하기 위해 입력 받은 속성 벡터에 대응되는 키워드 집합으로서, 이미지 판별 모델이 입력 받은 상품 이미지에 대응되는 키워드 집합일 수 있다. 이미지 판별 모델은 키워드 집합에 관한 데이터를 입력 받음으로써, 입력된 상품 이미지가 이미지 생성 모델에서 출력된 가짜 이미지인지를 판별하는데 있어, 키워드 집합이 나타내는 특정 상품의 속성들을 고려할 수 있다. 예를 들어, 특정 상품이 의류 상품이고, 키워드 집합이 {“red”, “long sleeve”, “floral”}인 경우, 이미지 판별 모델은 입력 받은 의류 상품 이미지의 속성 중 색상, 소매 길이, 무늬에 집중하여 이미지의 진위 여부를 판별할 수 있다.
이미지 판별 모델이 판별을 하는데 있어서 이용하는 키워드 집합에 관한 데이터는, 키워드 집합을 처리하여 생성한 데이터를 의미할 수 있다. 예를 들어, 키워드 집합에 관한 데이터는, 소정의 임베딩 모델에 키워드 집합을 입력하고, 임베딩 모델로부터 출력되는 키워드 집합에 대응되는 벡터 집합을 포함할 수 있다. 또한, 키워드 집합에 관한 데이터는, 키워드 집합에 대응되는 벡터 집합을 처리하여 생성한 데이터를 포함할 수 있다. 이미지 모델이 키워드 집합에 관한 데이터를 판별에 이용하는 구체적인 동작은, 도 6에 대한 내용에서 상술하도록 한다.
동작 250에서, 이미지 생성 장치(1000)는 판별 결과에 기초하여, 이미지 생성 모델을 업데이트할 수 있다.
이미지 생성 장치(1000)는 이미지 생성 모델로부터 출력된 상품 이미지를 이미지 판별 모델에 입력함으로써, 입력된 이미지가 이미지 생성 모델로부터 출력된 가짜 이미지인지 특정 상품에 관한 진짜 이미지인지 판별할 수 있고, 판별 결과를 이미지 생성 모델에 역전파(back propagation) 할 수 있다. 이미지 생성 장치(1000)는 이미지 생성 모델이 출력한 상품 이미지에 대한 이미지 판별 모델의 판별 결과에 기초하여, 이미지 생성 모델이 진짜 이미지에 가까운 상품 이미지를 출력할 수 있도록 이미지 생성 모델의 기반이 되는 신경망의 웨이트(weight) 값을 조절함으로써, 이미지 생성 모델을 업데이트할 수 있다.
도 3은, 일부 실시예에 따른 이미지 생성 장치(1000)가 키워드에 기초하여 이미지를 생성하는 예시를 도시한 도면이다.
도 3을 참조하면, 이미지 생성 장치(1000)는 의류 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합(310)을 획득할 수 있다. 키워드 집합(310)은 “v neck”, “long sleeve”, “floral”, 및 “white”를 의류 상품의 속성을 나타내는 키워드로서 포함한다. 이미지 생성 장치(1000)는 키워드 집합(310)을, 입력 인터페이스를 통한 사용자 입력, 통신 인터페이스를 통해 외부 장치로부터 수신된 데이터, 메모리에 저장된 파일에서 식별된 데이터 등을 통해 획득할 수 있다.
이미지 생성 장치(1000)는 획득한 키워드 집합(310) 내의 복수의 키워드에 기초하여, 키워드 집합(310)에 대응되는 속성 벡터(320)를 생성할 수 있다. 이미지 생성 장치(1000)는 생성된 속성 벡터(320)를 이미지 생성 모델(330)에 입력함으로써, 이미지 생성 모델로부터 출력되는 상품 이미지(340)를 생성할 수 있다. 이미지 생성 모델(330)로부터 출력되는 상품 이미지(340)는, 키워드 집합(310) 내의 복수의 키워드에 대응되는 의류 상품의 속성들에 대응될 수 있다.
예를 들어, 도 3을 참조하면, 목 부분이 브이 넥(v neck)이고, 소매 길이가 긴 소매(long sleeve)이고, 꽃(floral) 무늬를 가지며, 색상은 흰색(white)인 드레스 이미지가, 키워드 집합(310)에 대응되는 상품 이미지(340)로서 이미지 생성 모델(330)로부터 출력되었다.
이미지 생성 장치(1000)는 이미지 생성 모델(330)로부터 출력된 상품 이미지(340) 및 키워드 집합(310)에 관한 데이터(315)를, 이미지 판별 모델(350)에 입력함으로써, 상품 이미지(340)가 이미지 생성 모델(330)로부터 출력된 가짜 이미지인지를 판별할 수 있다. 이미지 판별 모델(350)은 판별 결과(360)로서 입력된 상품 이미지(340)가 이미지 생성 모델(330)로부터 출력된 가짜 이미지인지를 나타내는 확률 값을 판별 결과(360)로서 출력할 수 있다. 예를 들어, 이미지 판별 모델(350)은 판별 결과(360)로서 0.68을 출력할 수 있다. 출력된 확률 값 0.68은 0.5보다 크므로, 출력 결과(360)는 입력된 상품 이미지(340)가 이미지 생성 모델(330)로부터 출력된 가짜 이미지보다는 진짜 상품 이미지에 가까운 것으로 이미지 판별 모델(350)에서 판단되었음을 나타낸다.
이미지 판별 모델(350)은, 키워드 집합에 관한 데이터(315)를 입력 받음으로써, 입력된 상품 이미지(340)가 이미지 생성 모델(330)로부터 출력된 가짜 이미지인지를 판별하는데 있어, 키워드 집합(310)이 나타내는 특정 상품의 속성들을 고려할 수 있다. 이미지 판별 모델(350)은 키워드 집합(310) {“v neck”, “long sleeve”, “floral”, “white”}이 나타내는 의류 상품의 속성들에 집중하여 입력된 상품 이미지(340)가 이미지 생성 모델(330)로부터 출력된 가짜 상품 이미지인지 진짜 상품 이미지인지 여부를 판별할 수 있다.
이미지 생성 장치(1000)는 판별 결과(360)에 기초하여, 이미지 생성 모델(330)을 업데이트할 수 있다. 예를 들어, 이미지 생성 장치(1000)는 판별 결과(360)를 이미지 생성 모델(330)에 역전파(back propagation)할 수 있다. 이미지 생성 장치(1000)는, 판별 결과(360)에 기초하여, 이미지 생성 모델(330)이 진짜 이미지에 가까운 상품 이미지를 출력할 수 있도록 이미지 생성 모델(330)의 기반이 되는 신경망의 웨이트 값을 조절함으로써, 이미지 생성 모델(330)을 업데이트할 수 있다.
도 4는, 일부 실시예에 따른 이미지 생성 장치(1000)가 키워드 집합에 대응되는 속성 벡터를 생성하는 방법의 흐름도이다.
동작 410에서, 이미지 생성 장치(1000)는 소정의 임베딩 모델을 이용하여, 키워드 집합에 대응되는 벡터 집합을 생성할 수 있다.
이미지 생성 장치(1000)는 키워드 집합 내의 복수의 키워드를 소정의 임베딩 모델에 입력함으로써, 임베딩 모델로부터 출력되는, 복수의 키워드에 대응되는 복수의 벡터를 생성할 수 있다. 생성된 복수의 벡터는, 키워드 집합에 대응되는 벡터 집합을 구성할 수 있다.
이미지 생성 장치(1000)는 복수의 키워드에 포함되는 키워드 각각에 대해 대응되는 벡터를 생성함으로써, 복수의 키워드에 대응되는 복수의 벡터를 생성할 수 있다. 예를 들어, 키워드 집합이 {“red”, “long sleeve”, “floral”}인 경우, 이미지 생성 장치(1000)는 “red”에 대응되는 벡터 a 1, “long sleeve”에 대응되는 벡터 a 2, 및 “floral”에 대응되는 벡터 a 3를 각각 생성할 수 있다.
소정의 임베딩 모델은, 특정 상품의 속성을 나타내는 키워드를 입력 받고, 입력된 키워드에 대응되는 벡터를 출력하도록 미리 학습된 모델일 수 있다. 예를 들어, 임베딩 모델은, 미리 학습된 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예를 들어, CNN(Convolutional Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 임베딩 모델로서 사용될 수 있으나, 이에 한정되지 않는다.
임베딩 모델은, 특정 상품의 속성을 나타내는 상품 이미지에 대응되는 벡터와, 특정 상품의 속성들을 나타내는 키워드 집합에 대응되는 벡터 집합 내의 복수의 벡터을 산술 평균한 벡터가, 벡터 공간 상에서 유사하게 위치되도록 미리 학습된 모델일 수 있다.
동작 420에서, 이미지 생성 장치(1000)는 생성된 벡터 집합 내의 복수의 벡터에 기초하여, 벡터 집합에 대응되는 속성 가우시안 분포를 생성할 수 있다.
이미지 생성 장치(1000)는 벡터 집합에 대응되는 가우시안 분포 집합을 생성할 수 있다. 생성된 가우시안 분포 집합은, 벡터 집합 내의 복수의 벡터에 대응되는 복수의 가우시안 분포를 포함할 수 있다.
이미지 생성 장치(1000)는 벡터 집합 내의 복수의 벡터에 포함되는 벡터 각각에 대해 대응되는 가우시안 분포를 생성함으로써, 복수의 벡터에 대응되는 복수의 가우시안 분포를 생성할 수 있다. 예를 들어, 벡터 집합이 {a 1, a 2, a 3}인 경우, 이미지 생성 장치(1000)는 a 1에 대응되는 가우시안 분포 b 1, a 2에 대응되는 가우시안 분포 b 2, 및 a 3에 대응되는 가우시안 분포 b 3를 각각 생성할 수 있다.
이미지 생성 장치(1000)는 소정의 가우시안 분포 맵핑 모델에, 벡터를 입력함으로써, 가우시안 분포 맵핑 모델로부터 출력되는, 입력한 벡터에 대응되는 가우시안 분포를 생성할 수 있다. 가우시안 분포 맵핑 모델은, 벡터를 입력 받고, 입력된 벡터에 대응되는, 가우시안 분포를 나타내는 평균 벡터 및 분산(예를 들어, 공분산 행렬(covariance matrix))을 출력하도록 미리 학습된 모델일 수 있다. 가우시안 분포 맵핑 모델은, 미리 학습된 신경망을 기반으로 하는 모델일 수 있다.
이미지 생성 장치(1000)는 벡터 집합에 대응되는 가우시안 분포 집합 내의 복수의 가우시안 분포에 기초하여, 키워드 집합에 대응되는 속성 가우시안 분포를 생성할 수 있다. 이미지 생성 장치(1000)는 복수의 가우시안 분포에 포함된 각각의 가우시안 분포를 나타내는 평균 벡터 각각 및 분산 각각에 기초하여, 속성 가우시안 분포를 나타내는 평균 벡터 및 분산을 계산함으로써, 속성 가우시안 분포를 생성할 수 있다. 예를 들어, 복수의 가우시안 분포가 가우시안 분포 b 1, 가우시안 분포 b 2, 및 가우시안 분포 b 3를 포함하는 경우, 평균 벡터 c 1 및 분산 d 1 은 b 1을 나타내고, 평균 벡터 c 2 및 분산 d 2는 b 2을 나타내며, 평균 벡터 c 1 및 분산 d 1는 b 1을 나타낼 수 있다. 이미지 생성 장치는 복수의 가우시안 분포를 나타내는 평균 벡터들(c 1, c 2, c 3) 및 분산들(d 1, d 2, d 3)에 기초하여 속성 가우시안 분포를 나타내는 평균 벡터 및 분산을 계산할 수 있다.
이미지 생성 장치(1000)는 가우시안 곱(product of Gaussian) 연산을 이용하여 속성 가우시안 분포를 생성할 수 있다. 여기서, 가우시안 곱 연산은 다음의 [수학식 1]로 정의될 수 있다.
[수학식 1]
Figure PCTKR2020000063-appb-img-000001
[수학식 1]에서, μ i은, 가우시안 분포 집합 내의 임의의 가우시안 분포의 평균 벡터를 의미할 수 있다. 또한, σ i는 가우시안 분포 집합 내의 임의의 가우시안 분포의 공분산 행렬을 의미할 수 있다. μ는, 속성 가우시안 분포의 평균 벡터를 의미할 수 있다. σ는 속성 가우시안 분포의 공분산 행렬을 의미할 수 있다.
이미지 생성 장치(1000)는, [수학식 1]로 정의되는 가우시안 곱 연산에 가우시안 분포 집합 내의 가우시안 분포의 평균 벡터 및 공분산 행렬을 입력함으로써, [수학식 1]로부터 출력되는, 속성 가우시안 분포의 평균 벡터 및 공분산 행렬을 획득할 수 있다.
동작 430에서, 이미지 생성 장치(1000)는 속성 가우시안 분포에 기초하여, 키워드 집합에 대응되는 속성 벡터를 생성할 수 있다.
이미지 생성 장치(1000)는 속성 가우시안 분포로부터 속성 벡터를 샘플링 함으로써, 키워드 집합에 대응되는 속성 벡터를 생성할 수 있다. 속성 벡터는 입력 노이즈 벡터로서 이미지 생성 모델에 입력되어, 키워드 집합이 나타내는 특정 상품의 속성들에 대응되는 상품 이미지를 생성하는데 이용될 수 있다.
도 5는, 일부 실시예에 따른 이미지 생성 장치(1000)가 키워드 집합에 대응되는 속성 벡터를 생성하는 예시를 도시한 도면이다.
도 5를 참조하면, 이미지 생성 장치(1000)는 의류 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합(510)을 획득할 수 있다. 키워드 집합(510)은 의류 상품의 속성을 나타내는 키워드로서 v-neck(512), long sleeve(514), floral(516), 및 white(518)을 포함한다.
이미지 생성 장치(1000)는 소정의 임베딩 모델을 이용하여, 키워드 집합(510)에 대응되는 벡터 집합(520)을 생성할 수 있다. 임베딩 모델은 의류 상품의 속성을 나타내는 키워드를 입력 받고, 입력된 키워드에 대응되는 벡터를 출력하도록 미리 학습된 모델일 수 있다. 이미지 생성 장치(1000)는 키워드 집합(510)을 임베딩 모델에 입력함으로써, 키워드 집합(510) 내의 키워드 각각에 대응되는 벡터를 생성할 수 있다.
예를 들어, 도 5를 참조하면, 이미지 생성 장치(1000)는 키워드 집합(510) 내의 키워드인 v-neck(512), long sleeve(514), floral(516), 및 white(518)을 임베딩 모델에 입력함으로써, v-neck(512)에 대응되는 벡터 a 1(522), long sleeve(514)에 대응되는 벡터 a 2(524), floral(516)에 대응되는 벡터 a 3(526), 및 white(518)에 대응되는 벡터 a 4(528)을 생성할 수 있다.
이미지 생성 장치(1000)는 벡터 집합(520)에 대응되는 가우시안 분포 집합(530)을 생성할 수 있다. 이미지 생성 장치(1000)는 소정의 가우시안 분포 맵핑 모델에 벡터 집합(520)을 입력함으로써, 가우시안 분포 맵핑 모델로부터 출력되는, 가우시안 분포 집합(530)을 생성할 수 있다. 생성된 가우시안 분포 집합(530) 내의 가우시안 분포들(532, 534, 536, 538) 각각은 벡터 집합(520) 내의 벡터들(522, 524, 526, 528) 각각에 대응될 수 있다.
이미지 생성 장치(1000)는 가우시안 분포 집합(530) 내의 복수의 가우시안 분포에 기초하여, 키워드 집합(510)에 대응되는 속성 가우시안 분포(540)를 생성할 수 있다. 이미지 생성 장치(1000)는 전술한 [수학식 1]로 정의될 수 있는 가우시안 곱 연산을 이용하여, 속성 가우시안 분포(540)를 생성할 수 있다.
이미지 생성 자치(1000)는 생성된 속성 가우시안 분포(540)로부터 속성 벡터(550)를 샘플링함으로써, 키워드 집합(510)에 대응되는 속성 벡터(550)를 생성할 수 있다. 생성된 속성 벡터(550)는 입력 노이즈 벡터로서 이미지 생성 모델(330)에 입력되어, 키워드 집합(510)이 나타내는 의류 상품의 속성들에 대응되는 상품 이미지(340)를 생성하는데 이용될 수 있다.
이미지 생성 장치(1000)는 가우시안 곱 연산을 이용하여 키워드 집합에 대응되는 속성 벡터를 생성하고, 속성 벡터를 이미지 생성 모델에 입력하는 입력 노이즈 벡터로 이용할 수 있다. 이를 통해, 이미지 생성 장치(1000)는 키워드 집합에 대응되는 상품 이미지를 다양하게 생성할 수 있다.
도 6은, 이미지 생성 장치(1000)가 이미지 생성의 기초가 된 키워드 집합을 고려하여, 생성된 이미지가 가짜 이미지인지 판별하는 방법의 흐름도이다.
동작 610에서, 이미지 생성 장치(1000)는 이미지 판별 모델에 포함된 복수의 레이어 중 제1 레이어로부터 출력되는, 제1 이미지를 식별할 수 있다. 여기서, 제1 이미지는 복수의 영역으로 구성될 수 있다.
이미지 판별 모델은, 컨볼루션 연산을 이용하여 이미지로부터 특징을 추출하는 복수의 레이어를 포함할 수 있다. 복수의 레이어는 CNN(Convolutional Neural Network)을 구성하는 복수의 컨볼루션 레이어일 수 있다. 여기서 컨볼루션 레이어는 입력된 이미지를 컨볼루션 연산을 이용하여 다운 샘플링함으로써, 입력된 이미지에 대한 특징들을 추출할 수 있다. 컨볼루션 연산을 이용한 특징 추출을 하기 위해 특징 추출을 위한 필터가 사용될 수 있으며, 컨볼루션 연산 과정에서 필터가 입력된 이미지의 특정 영역에 적용됨으로써 해당 영역에 대응되는 특징이 추출될 수 있다.
컨볼루션 레이어는 추출된 특징들을 나타내는 이미지를 출력할 수 있으며, 출력된 이미지는 컨볼루션 연산에 이용되는 필터의 개수에 따라, 복수의 특징 맵(feature map)의 조합으로 구성될 수 있다. 복수의 특징 맵에 포함된 특징 맵 각각은 소정 개수의 복수의 영역으로 구성될 수 있으며, 특징 맵의 복수의 영역에 포함된 영역 각각은 추출된 특징을 나타내는 숫자에 대응될 수 있다. 따라서, 컨볼루션 레이어로부터 출력되는 이미지는, 소정 개수의 복수의 영역으로 구성될 수 있으며, 복수의 영역에 포함된 영역 각각은 추출된 특징을 나타내는 숫자들의 n 차원 특징 벡터에 대응될 수 있다. 여기서 n 차원은, 컨볼루션 레이어에서 출력된 이미지를 구성하는 특징 맵의 개수일 수 있다.
이와 같이, 컨볼루션 레이어로부터 출력되는 이미지는, 이미지를 구성하는 복수의 영역에 대응되는 복수의 특징 벡터들로 정의될 수 있다. 이하에서, 이미지 판별 모델에 포함된 복수의 레이어 중 제1 레이어로부터 출력되는 특징 맵의 조합을 제1 이미지로 지칭하도록 하며, 제1 이미지는 제1 이미지를 구성하는 복수의 영역에 대응되는 복수의 특징 벡터들로 정의될 수 있다.
이미지 생성 장치(1000)는 이미지 판별 모델에 포함된 복수의 레이어 중 제1 레이어로부터 출력되는, 제1 이미지를 식별함으로써, 제1 이미지를 구성하는 복수의 영역에 대응되는 복수의 특징 벡터를 식별할 수 있다.
동작 620에서, 이미지 생성 장치(1000)는 키워드 집합에 대응되는 벡터 집합 내의 복수의 벡터 및 제1 이미지 내의 복수의 영역에 대응되는 복수의 특징 벡터에 기초하여, 제1 이미지 내의 복수의 영역에 대응되는 복수의 가중치 계수 집합을 생성할 수 있다.
이미지 생성 장치(1000)는 키워드 집합에 대응되는 벡터 집합 내의 복수의 벡터 및 제1 이미지 내의 복수의 영역에 대응되는 복수의 특징 벡터를 소정의 함수에 입력함으로써, 제1 이미지 내의 복수의 영역에 대응되는 복수의 가중치 계수 집합을 생성할 수 있다. 여기서, 벡터 집합 내의 복수의 벡터는, 사영 행렬(projection matrix)을 이용하여 복수의 특징 벡터에 포함된 특징 벡터들의 차원으로 사영된 채로, 소정의 함수에 입력될 수 있다.
복수의 가중치 계수 집합을 생성하기 위한, 소정의 함수는 소프트 맥스(soft max) 함수를 포함할 수 있으며, 복수의 가중치 계수 집합은 다음의 [수학식 2]로 나타내어지는 소프트 맥스 함수를 이용하여 생성될 수 있다.
[수학식 2]
Figure PCTKR2020000063-appb-img-000002
[수학식 2]에서, h j는 제1 이미지 내의 복수의 영역 중 임의의 영역에 대응되는 특징 벡터를 의미할 수 있다. a i '는 사영된 벡터 집합 내의 복수의 사영된 벡터 중 임의의 사영된 벡터를 의미할 수 있다. [수학식 2]에서 지수 함수에 입력되는 h j ·a i '는, h j와 a i '의 내적을 의미할 수 있다. 또한, K는 벡터 집합에 포함된 벡터의 개수를 의미할 수 있다. α ji는 복수의 가중치 계수 집합에 포함된 가중치 계수 집합 중 h j에 대응되는 제1 이미지 내의 영역에 대응되는, 가중치 계수 집합을 의미할 수 있다. 각각의 가중치 계수 집합은 벡터 집합에 포함된 벡터의 개수만큼 가중치 계수를 포함할 수 있다.
복수의 가중치 계수 집합에 포함된 가중치 계수 집합 각각은, 제1 이미지 내의 복수의 영역에 포함된 영역 각각에 대응될 수 있다. 따라서, 가중치 계수 집합은 제1 이미지 내의 복수의 영역에 포함된 영역의 개수만큼 생성될 수 있다.
전술한 동작 620에 대한 설명에서, 이미지 생성 장치(1000)가 복수의 가중치 계수 집합을 생성하기 위한 함수로서 소프트 맥스 함수를 사용하는 예시를 설명하였으나, 소정의 함수는 소프트 맥스 함수에 한정되지 않는다.
동작 630에서, 이미지 생성 장치(1000)는 복수의 가중치 계수 집합에 포함된 가중치 계수 집합 각각을 벡터 집합에 적용함으로써, 제1 이미지 내의 복수의 영역에 대응되는 복수의 컨텍스트 벡터를 획득할 수 있다.
이미지 생성 장치(1000)는 복수의 가중치 계수 집합에 포함된 가중치 계수 집합 각각을 벡터 집합 내의 벡터 각각에 적용하여, 벡터 집합 내의 복수의 벡터를 가중 합(weighted sum)할 수 있다. 이미지 생성 장치(1000)는 복수의 가중치 계수 집합에 기초하여 벡터 집합 내의 복수의 벡터의 가중 합함으로써, 제1 이미지 내의 복수의 영역에 대응되는 복수의 컨텍스트 벡터를 획득할 수 있다. 여기서, 가중 합 되는 벡터 집합 내의 벡터는, 사영 행렬(projection matrix)을 이용하여 복수의 특징 벡터에 포함된 특징 벡터들의 차원으로 사영된 채로 가중 합 될 수 있다.
사영된 벡터 집합 내의 복수의 사영된 벡터는 다음의 [수학식 3]을 이용해 가중 합 될 수 있다.
[수학식 3]
Figure PCTKR2020000063-appb-img-000003
[수학식 3]에서, α ji, a i ', K는 전술한 [수학식 2]의 α ji, a i ', K에 각각 대응될 수 있다. 또한, [수학식 3]에서 c j는, 제1 이미지 내의 복수의 영역 중 임의의 영역에 대응되는 컨텍스트 벡터를 의미할 수 있다.
생성된 복수의 컨텍스트 벡터는, 특정 상품의 속성들을 나타내는 키워드 집합에 대응되는 벡터 집합 및 제1 이미지의 복수의 특징 벡터에 기초하여 생성된 데이터로서, 키워드 집합이 나타내는 특정 상품의 속성들에 관한 정보가 반영된 데이터일 수 있다.
동작 640에서, 이미지 생성 장치(1000)는 복수의 컨텍스트 벡터에 포함된 컨텍스트 벡터 각각을 복수의 특징 벡터에 포함된 특징 벡터 각각과 연결시킴으로써 획득되는 제2 이미지를, 복수의 레이어 중 제2 레이어에 입력할 수 있다.
이미지 생성 장치(1000)는 생성된 복수의 컨텍스트 벡터에 포함된 컨텍스트 벡터 각각을 복수의 특징 벡터에 포함된 특징 벡터 각각과 연결시킬 수 있다. 여기서, 연결은 복수의 벡터를 컨케트네이트(concatenate)하여 하나의 벡터로 결합 시키는 것을 의미할 수 있다. 예를 들어, 두 개의 벡터의 연결은, 두 개의 벡터 중 하나의 벡터(n차원)를 나머지 벡터(m차원)와 결합하여, n+m 차원의 벡터를 생성하는 것을 의미할 수 있다.
이미지 생성 장치(1000)는 컨텍스트 벡터를 대응되는 특징 벡터와 연결시킬 수 있다. 컨텍스트 벡터와 특징 벡터는 각각 제1 이미지 내의 복수의 영역 중 하나의 영역에 대응될 수 있으며, 같은 영역에 대응되는 컨텍스트 벡터와 특징 벡터는 서로 대응될 수 있다. 예를 들어, 제1 이미지 내의 복수의 영역 중 하나의 영역에 대응되는 컨텍스트 벡터 c j와 특징 벡터 h j는 서로 대응되며, 이미지 생성 장치(1000)는 c j와 h j를 연결시킬 수 있다.
이미지 생성 장치(1000)는 복수의 컨텍스트 벡터에 포함된 컨텍스트 벡터 각각을 복수의 특징 벡터에 포함된 특징 벡터 각각과 연결시킴으로써, 제2 이미지를 획득할 수 있다. 제2 이미지는, 제1 이미지에 대응되는 특징 벡터들의 집합에, 벡터 집합에 기초하여 생성된 컨텍스트 벡터 집합이 연결된 이미지로서, 제1 이미지에 키워드 집합이 나타내는 특정 상품의 속성들이 반영된 이미지일 수 있다.
이미지 생성 장치(1000)는 제2 이미지를 이미지 판별 모델의 복수의 레이어 중 제2 레이어에 입력할 수 있다. 제2 레이어는, 이미지 판별 모델의 복수의 레이어 중, 제1 레이어에서 출력되는 제1 이미지 또는 제1 이미지를 처리한 이미지를 입력 받는, 제1 레이어에 연속된 레이어일 수 있다. 제2 레이어는, 키워드 집합에 관한 데이터에 기초하여 제1 이미지를 처리한 이미지로서, 키워드 집합이 나타내는 특정 상품의 속성들이 반영된 제2 이미지를 입력 받을 수 있고, 입력된 제2 이미지에 대한 특징들을 추출할 수 있다. 따라서, 제2 레이어 이후의 레이어에서는 키워드 집합이 나타내는 특정 상품의 속성들이 반영된 채로 특징 추출 과정이 진행될 수 있다. 따라서, 이미지 판별 모델을 이용하여 입력된 상품 이미지가 이미지 생성 모델에서 출력된 가짜 이미지인지를 판별하는데 있어, 키워드 집합이 나타내는 특정 상품의 속성들을 고려될 수 있다. 이미지 생성 장치(1000)는 상품 이미지와 함께 키워드 집합에 관한 데이터를 이미지 판별 모델에 입력함으로써, 이미지 생성의 기초가 된 키워드 집합이 나타내는 특정 상품의 속성들이 고려된 판별 결과를 획득할 수 있다.
전술한 도 6에 대한 설명에서, 도 6의 동작들은, 이미지 생성 장치(1000)가 직접 수행하는 동작들로 기재되었으나 이에 한정되지 않으며, 이미지 생성 장치(1000)가 상품 이미지 및 키워드 집합에 관한 데이터를 이미지 판별 모델에 입력함으로써, 이미지 판별 모델에서 수행되는 동작들일 수도 있다.
도 7은, 이미지 생성 장치(1000)가 이미지 생성의 기초가 된 키워드 집합을 고려하여, 생성된 이미지가 가짜 이미지인지 판별하는 예시를 도시한 도면이다.
도 7을 참조하면, 이미지 생성 장치(1000)는 이미지 생성 모델(330)로부터 출력된 상품 이미지(710)가 가짜 이미지인지를 판별하기 위해, 이미지 판별 모델(700)에 상품 이미지(710)를 입력할 수 있다. 이미지 판별 모델(700)에 입력된 상품 이미지(710)는 이미지 판별 모델(700)에 포함된 복수의 레이어(702) 중 첫번째 레이어에 입력될 수 있다.
이미지 생성 장치(1000)는 상품 이미지(710) 생성의 기초가 된 키워드 집합(730)에 관한 데이터로서, 키워드 집합(730)에 대응되는 벡터 집합(740)을 이미지 판별 모델(700)에 입력할 수 있다.
이미지 생성 장치(1000)는 이미지 판별 모델(700) 내의 복수의 레이어(702) 중 제1 레이어(704)로부터 출력되는 제1 이미지(720)를 식별할 수 있다. 여기서, 제1 이미지(720)는 복수의 영역으로 구성될 수 있으며, 복수의 영역에 포함된 영역 각각은 제1 레이어(704)에 입력된 이미지로부터 추출된 특징을 나타내는 특징 벡터에 대응될 수 있다.
이미지 생성 장치(1000)는 벡터 집합(740) 내의 복수의 벡터 및 제1 이미지(720) 내의 복수의 영역에 대응되는 복수의 특징 벡터에 기초하여, 제1 이미지(720) 내의 복수의 영역에 대응되는 복수의 가중치 계수 집합을 생성(750)할 수 있다. 복수의 가중치 계수 집합은 소프트 맥스에 기초한 소정의 함수에 벡터 집합 내의 복수의 벡터 및 제1 이미지(720) 내의 복수의 영역에 대응되는 복수의 특징 벡터를 입력함으로써 생성될 수 있다.
이미지 생성 장치(1000)는 복수의 가중치 계수 집합에 포함된 가중치 계수 집합 각각을 벡터 집합(740)에 적용함으로써, 제1 이미지(720) 내의 복수의 영역에 대응되는 복수의 컨텍스트 벡터를 획득(760)할 수 있다. 여기서, 복수의 가중치 계수 집합에 포함된 가중치 계수 집합 각각을 벡터 집합(740)에 적용하는 것은, 복수의 가중치 계수 집합에 포함된 가중치 계수 집합 각각을 벡터 집합 내의 벡터 각각에 적용하여, 벡터 집합 내의 복수의 벡터를 가중합(weighted sum)하는 것일 수 있다.
이미지 생성 장치(1000)는 복수의 컨텍스트 벡터에 포함된 컨텍스트 벡터 각각을 제1 이미지(720)의 복수의 특징 벡터에 포함된 특징 벡터 각각과 연결(770)시킴으로써 제2 이미지(780)를 획득할 수 있다. 여기서, 연결(770)은 복수의 컨텍스트 벡터에 포함된 컨텍스트 벡터 각각을 제1 이미지(720)의 복수의 특징 벡터에 포함된 특징 벡터 각각과 대응되게 컨케트네이트하는 것일 수 있다.
이미지 생성 장치(1000)는 획득된 제2 이미지(780)를 이미지 판별 모델(700)의 복수의 레이어(702) 중 제1 레이어(704)에 연속되는 제2 레이어(706)에 입력할 수 있다. 제2 이미지(780)를 입력 받은 제2 레이어(706)는, 키워드 집합(730)이 나타내는 특정 상품의 속성들이 반영된 제2 이미지로부터 특징들을 추출하여 제3 이미지를 출력할 수 있고, 제3 이미지는 이미지 판별 모델의 복수의 레이어를 통해 처리될 수 있다.
따라서, 이미지 생성 장치(1000)는 상품 이미지(710)와 함께 키워드 집합에 관한 데이터로서 벡터 집합(740)을 이미지 판별 모델(700)에 입력함으로써, 상품 이미지(710) 생성의 기초가 된 키워드 집합(730)이 나타내는 특정 상품의 속성들이 고려된 판별 결과(790)를 획득할 수 있다.
전술한 도 7에 대한 설명에서, 도 7의 동작들은, 이미지 생성 장치(1000)가 직접 수행하는 동작들로 기재되었으나 이에 한정되지 않으며, 이미지 생성 장치(1000)가 상품 이미지 및 키워드 집합에 관한 데이터를 이미지 판별 모델에 입력함으로써, 이미지 판별 모델에서 수행되는 동작들일 수도 있다.
도 8은, 일부 실시예에 따른 이미지 생성 장치(1000)의 블록도이다.
도 8을 참조하면, 이미지 생성 장치(1000)는 메모리(1100), 입력 인터페이스(1200), 출력 인터페이스(1300), 및 프로세서(1400)를 포함할 수 있다.
메모리(1100)는 이미지 생성 장치(1000)의 동작을 제어하기 위한 프로그램을 저장할 수 있다. 메모리(1100)는 이미지 생성 장치(1000)의 동작을 제어하기 위한 적어도 하나의 인스트럭션을 포함할 수 있다. 또한, 메모리(1100)는, 예를 들어, 이미지를 생성하는데 이용될 수 있는 키워드 집합 데이터, 벡터 집합 데이터, 특정 상품의 이미지 데이터 등을 저장할 수 있다. 메모리(1100)는, 예를 들어, 키워드에 기초하여 이미지를 생성하기 위한 이미지 생성 모델, 이미지가 이미지 생성 모델로부터 출력된 가짜 이미지인지를 판별하는 이미지 판별 모델, 등을 저장할 수 있다. 메모리(1100)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류될 수 있다.
메모리(1100)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
입력 인터페이스(1200)는, 특정 상품의 속성을 나타내는 키워드를 입력하는 사용자 입력을 수신할 수 있다. 예를 들어, 입력 인터페이스(1200) 는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등을 포함할 수 있으나 이에 한정되는 것은 아니다.
입력 인터페이스(1200)는, 특정 상품의 속성을 나타내는 키워드가 포함된 데이터를 외부 장치로부터 수신할 수 있다. 예를 들어, 입력 인터페이스(1200)는 외부 장치로부터 데이터를 수신할 수 있는 통신 인터페이스를 포함할 수 있다.
입력 인터페이스(1200)에 포함되는 통신 인터페이스는, 외부 장치와의 통신을 위한 하나 이상의 통신 모듈을 포함할 수 있다. 통신 인터페이스는 근거리 통신 인터페이스(short-range wireless communication interface)는, 블루투스 통신 인터페이스, BLE(Bluetooth Low Energy) 통신 인터페이스, 근거리 무선 통신 인터페이스(Near Field Communication interface), WLAN(와이파이) 통신 인터페이스, 지그비(Zigbee) 통신 인터페이스, 적외선(IrDA, infrared Data Association) 통신 인터페이스, WFD(Wi-Fi Direct) 통신 인터페이스, UWB(ultra wideband) 통신 인터페이스, Ant+ 통신 인터페이스 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
출력 인터페이스(1300)는 이미지 생성 장치(1000)가 키워드에 기초하여 생성한 이미지, 이미지 판별 모델로부터 출력되는 판별 결과, 등을 출력할 수 있다. 출력 인터페이스(1300)는 디스플레이를 포함할 수 있다. 디스플레이는 이미지 또는 키워드 정보를 출력한다. 한편, 디스플레이와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 예를 들어, 출력 인터페이스(1300)는 외부 장치에게 데이터를 송신할 수 있는 통신 인터페이스를 포함할 수 있다. 입력 인터페이스(1200) 및 출력 인터페이스(1300)는 하나의 인터페이스로 구현될 수도 있다.
프로세서(1400)는, 통상적으로 이미지 생성 장치(1000)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(1400)는, 메모리(1100)에 저장된 프로그램들을 실행함으로써, 입력 인터페이스(1200) 및 출력 인터페이스(1300)를 전반적으로 제어할 수 있다. 프로세서(1400)는 입력 인터페이스(1200) 및 출력 인터페이스(1300)를 제어함으로써, 도 1 내지 도 7에서의 이미지 생성 장치(1000)의 동작을 제어할 수 있다.
프로세서(1400)는, 특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합을 획득할 수 있다. 프로세서(1400)는 키워드 집합 내의 복수의 키워드에 기초하여, 키워드 집합에 대응되는 속성 벡터를 생성할 수 있다. 프로세서(1400)는 생성된 속성 벡터를 소정의 이미지 생성 모델에 입력함으로써, 이미지 생성 모델로부터 출력되는, 특정 상품의 속성들에 대응되는 상품 이미지를 생성할 수 있다. 프로세서(1400)는 이미지 생성 모델로부터 출력된 상품 이미지 및 키워드 집합에 관한 데이터를, 소정의 이미지 판별 모델에 입력함으로써, 상품 이미지가 이미지 생성 모델로부터 출력된 가짜 이미지인지를 판별할 수 있다. 프로세서(1400)는 판별 결과에 기초하여, 이미지 생성 모델을 업데이트할 수 있다.
프로세서(1400)는, 소정의 임베딩 모델을 이용하여, 키워드 집합에 대응되는 벡터 집합을 생성할 수 있다. 프로세서(1400)는, 생성된 벡터 집합 내의 복수의 벡터에 기초하여, 벡터 집합에 대응되는 속성 가우시안 분포를 생성할 수 있다. 프로세서(1400)는, 속성 가우시안 분포에 기초하여, 키워드 집합에 대응되는 속성 벡터를 생성할 수 있다.
프로세서(1400)는, 키워드 집합 내의 복수의 키워드를 임베딩 모델에 입력함으로써, 임베딩 모델로부터 출력되는, 복수의 키워드에 대응되는 복수의 벡터를 생성할 수 있다. 여기서, 임베딩 모델은, 특정 상품의 속성을 나타내는 키워드를 입력 받고, 입력된 키워드에 대응되는 벡터를 출력하도록 미리 학습된 모델일 수 있다.
프로세서(1400)는, 벡터 집합 내의 복수의 벡터에 대응되는 복수의 가우시안 분포를 포함하는, 벡터 집합에 대응되는 가우시안 분포 집합을 생성할 수 있다. 프로세서(1400)는, 가우시안 분포 집합 내의 복수의 가우시안 분포에 기초하여, 키워드 집합에 대응되는 속성 가우시안 분포를 생성할 수 있다.
프로세서(1400)는, 복수의 가우시안 분포에 포함된 각각의 가우시안 분포를 나타내는 평균 벡터 각각 및 분산에 기초하여, 속성 가우시안 분포를 나타내는 평균 벡터 및 분산을 계산할 수 있다.
프로세서(1400)는, 이미지 판별 모델에 포함된 복수의 레이어 중 제1 레이어로부터 출력되는, 제1 이미지를 식별할 수 있으며, 여기서, 제1 이미지는 복수의 영역으로 구성될 수 있다. 프로세서(1400)는, 키워드 집합에 대응되는 벡터 집합 내의 복수의 벡터 및 제1 이미지 내의 복수의 영역에 대응되는 복수의 특징 벡터에 기초하여, 제1 이미지 내의 복수의 영역에 대응되는 복수의 가중치 계수 집합을 생성할 수 있다. 프로세서(1400)는, 복수의 가중치 계수 집합에 포함된 가중치 계수 집합 각각을 벡터 집합에 적용함으로써, 제1 이미지 내의 복수의 영역에 대응되는 복수의 컨텍스트 벡터를 획득할 수 있다. 프로세서(1400)는, 복수의 컨텍스트 벡터에 포함된 컨텍스트 벡터 각각을 복수의 특징 벡터에 포함된 특징 벡터 각각과 연결시킴으로써 획득되는 제2 이미지를, 복수의 레이어 중 제2 레이어에 입력할 수 있다.
프로세서(1400)는, 상품 이미지가 이미지 생성 모델을 이용하여 생성된 가짜 이미지인지 판별하기 위하여, 상품 이미지 및 특정 상품의 속성들에 대응되는 진짜 상품 이미지 중 하나 및 키워드 집합에 관한 데이터를 이미지 판별 모델에 적용함으로써, 이미지 판별 모델을 학습시킬 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치에 있어서,
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 하나 이상의 인스트럭션을 실행함으로써 상기 이미지 생성 장치를 제어하는 프로세서를 포함하며,
    상기 프로세서는,
    특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합을 획득하고,
    상기 키워드 집합 내의 상기 복수의 키워드에 기초하여, 상기 키워드 집합에 대응되는 속성 벡터를 생성하고,
    상기 생성된 속성 벡터를 소정의 이미지 생성 모델에 입력함으로써, 상기 이미지 생성 모델로부터 출력되는, 상기 특정 상품의 속성들에 대응되는 상품 이미지를 생성하고,
    상기 이미지 생성 모델로부터 출력된 상품 이미지 및 상기 키워드 집합에 관한 데이터를, 소정의 이미지 판별 모델에 입력함으로써, 상기 상품 이미지가 상기 이미지 생성 모델로부터 출력된 가짜 이미지인지를 판별하고,
    상기 판별 결과에 기초하여, 상기 이미지 생성 모델을 업데이트하는, 장치.
  2. 제1 항에 있어서, 상기 프로세서는,
    소정의 임베딩 모델을 이용하여, 상기 키워드 집합에 대응되는 벡터 집합을 생성하고,
    상기 생성된 벡터 집합 내의 복수의 벡터에 기초하여, 상기 벡터 집합에 대응되는 속성 가우시안 분포를 생성하고,
    상기 속성 가우시안 분포에 기초하여, 상기 키워드 집합에 대응되는 상기 속성 벡터를 생성하는 것인, 장치.
  3. 제2 항에 있어서, 상기 프로세서는,
    상기 키워드 집합 내의 상기 복수의 키워드를 상기 임베딩 모델에 입력함으로써, 상기 임베딩 모델로부터 출력되는, 상기 복수의 키워드에 대응되는 상기 복수의 벡터를 생성하며,
    상기 임베딩 모델은,
    상기 특정 상품의 속성을 나타내는 키워드를 입력 받고, 상기 입력된 키워드에 대응되는 벡터를 출력하도록 미리 학습된 모델인, 장치.
  4. 제2 항에 있어서, 상기 프로세서는,
    상기 벡터 집합 내의 상기 복수의 벡터에 대응되는 복수의 가우시안 분포를 포함하는, 상기 벡터 집합에 대응되는 가우시안 분포 집합을 생성하고,
    상기 가우시안 분포 집합 내의 상기 복수의 가우시안 분포에 기초하여, 상기 키워드 집합에 대응되는 상기 속성 가우시안 분포를 생성하는 것인, 장치.
  5. 제4 항에 있어서, 상기 프로세서는,
    상기 복수의 가우시안 분포에 포함된 각각의 가우시안 분포를 나타내는 평균 벡터 각각 및 분산 각각에 기초하여, 상기 속성 가우시안 분포를 나타내는 평균 벡터 및 분산을 계산하는 것인, 장치.
  6. 제2 항에 있어서,
    상기 이미지 판별 모델은, 컨볼루션 연산을 이용하여 이미지로부터 특징을 추출하는 복수의 레이어를 포함하며,
    상기 이미지 판별 모델은, 상기 복수의 레이어를 이용하여, 상기 입력된 상품 이미지가 상기 이미지 생성 모델로부터 출력된 가짜 이미지인지를 나타내는 확률 값을, 상기 판별 결과로 출력하는 것인, 장치.
  7. 제6 항에 있어서, 상기 프로세서는,
    상기 이미지 판별 모델에 포함된 상기 복수의 레이어 중 제1 레이어로부터 출력되는, 제1 이미지를 식별하며, 상기 제1 이미지는 복수의 영역으로 구성되고,
    상기 키워드 집합에 대응되는 상기 벡터 집합 내의 상기 복수의 벡터 및 상기 제1 이미지 내의 상기 복수의 영역에 대응되는 복수의 특징 벡터에 기초하여, 상기 제1 이미지 내의 상기 복수의 영역에 대응되는 복수의 가중치 계수 집합을 생성하고,
    상기 복수의 가중치 계수 집합에 포함된 가중치 계수 집합 각각을 상기 벡터 집합에 적용함으로써, 상기 제1 이미지 내의 상기 복수의 영역에 대응되는 복수의 컨텍스트 벡터를 획득하고,
    상기 복수의 컨텍스트 벡터에 포함된 컨텍스트 벡터 각각을 상기 복수의 특징 벡터에 포함된 특징 벡터 각각과 연결시킴으로써 획득되는 제2 이미지를, 상기 복수의 레이어 중 제2 레이어에 입력하는 것인, 장치.
  8. 제1 항에 있어서, 상기 프로세서는,
    상기 상품 이미지가 상기 이미지 생성 모델을 이용하여 생성된 가짜 이미지인지 판별하기 위하여, 상기 상품 이미지 및 상기 특정 상품의 속성들에 대응되는 진짜 상품 이미지 중 하나 및 상기 키워드 집합에 관한 데이터를 상기 이미지 판별 모델에 적용함으로써, 상기 이미지 판별 모델을 학습시키는 것인, 장치.
  9. 키워드에 기초하여 이미지를 생성하는 방법에 있어서,
    특정 상품의 속성들을 나타내는 복수의 키워드를 포함하는, 키워드 집합을 획득하는 동작;
    상기 키워드 집합 내의 상기 복수의 키워드에 기초하여, 상기 키워드 집합에 대응되는 속성 벡터를 생성하는 동작;
    상기 생성된 속성 벡터를 소정의 이미지 생성 모델에 입력함으로써, 상기 이미지 생성 모델로부터 출력되는, 상기 특정 상품의 속성들에 대응되는 상품 이미지를 생성하는 동작;
    상기 이미지 생성 모델로부터 출력된 상품 이미지 및 상기 키워드 집합에 관한 데이터를, 소정의 이미지 판별 모델에 입력함으로써, 상기 상품 이미지가 상기 이미지 생성 모델로부터 출력된 가짜 이미지인지를 판별하는 동작; 및
    상기 판별 결과에 기초하여, 상기 이미지 생성 모델을 업데이트하는 동작을 포함하는, 방법.
  10. 제9 항에 있어서, 상기 속성 벡터를 생성하는 동작은,
    소정의 임베딩 모델을 이용하여, 상기 키워드 집합에 대응되는 벡터 집합을 생성하는 동작;
    상기 생성된 벡터 집합 내의 복수의 벡터에 기초하여, 상기 벡터 집합에 대응되는 속성 가우시안 분포를 생성하는 동작; 및
    상기 속성 가우시안 분포에 기초하여, 상기 키워드 집합에 대응되는 상기 속성 벡터를 생성하는 동작을 포함하는, 방법.
  11. 제10 항에 있어서, 상기 벡터 집합을 생성하는 동작은,
    상기 키워드 집합 내의 상기 복수의 키워드를 상기 임베딩 모델에 입력함으로써, 상기 임베딩 모델로부터 출력되는, 상기 복수의 키워드에 대응되는 상기 복수의 벡터를 생성하는 동작을 포함하고,
    상기 임베딩 모델은,
    상기 특정 상품의 속성을 나타내는 키워드를 입력 받고, 상기 입력된 키워드에 대응되는 벡터를 출력하도록 미리 학습된 모델인, 방법.
  12. 제10 항에 있어서, 상기 속성 가우시안 분포를 생성하는 동작은,
    상기 벡터 집합 내의 상기 복수의 벡터에 대응되는 복수의 가우시안 분포를 포함하는, 상기 벡터 집합에 대응되는 가우시안 분포 집합을 생성하는 동작; 및
    상기 가우시안 분포 집합 내의 상기 복수의 가우시안 분포에 기초하여, 상기 키워드 집합에 대응되는 상기 속성 가우시안 분포를 생성하는 동작을 포함하는, 방법.
  13. 제12 항에 있어서, 상기 복수의 가우시안 분포에 기초하여, 상기 키워드 집합에 대응되는 상기 속성 가우시안 분포를 생성하는 동작은,
    상기 복수의 가우시안 분포에 포함된 각각의 가우시안 분포를 나타내는 평균 벡터 각각 및 분산 각각에 기초하여, 상기 속성 가우시안 분포를 나타내는 평균 벡터 및 분산을 계산하는 동작을 포함하는, 방법.
  14. 제10 항에 있어서,
    상기 이미지 판별 모델은, 컨볼루션 연산을 이용하여 이미지로부터 특징을 추출하는 복수의 레이어를 포함하고,
    상기 이미지 판별 모델은, 상기 복수의 레이어를 이용하여, 상기 입력된 상품 이미지가 상기 이미지 생성 모델로부터 출력된 이미지인지를 나타내는 확률 값을, 상기 판별 결과로 출력하는, 방법.
  15. 제14 항에 있어서, 상기 판별하는 동작은,
    상기 이미지 판별 모델에 포함된 상기 복수의 레이어 중 제1 레이어로부터 출력되는, 제1 이미지를 식별하며, 상기 제1 이미지는 복수의 영역으로 구성되는 동작;
    상기 키워드 집합에 대응되는 상기 벡터 집합 내의 상기 복수의 벡터 및 상기 제1 이미지 내의 상기 복수의 영역에 대응되는 복수의 특징 벡터에 기초하여, 상기 제1 이미지 내의 상기 복수의 영역에 대응되는 복수의 가중치 계수 집합을 생성하는 동작;
    상기 복수의 가중치 계수 집합에 포함된 가중치 계수 집합 각각을 상기 벡터 집합에 적용함으로써, 상기 제1 이미지 내의 상기 복수의 영역에 대응되는 복수의 컨텍스트 벡터를 획득하는 동작; 및
    상기 복수의 컨텍스트 벡터에 포함된 컨텍스트 벡터 각각을 상기 복수의 특징 벡터에 포함된 특징 벡터 각각과 연결시킴으로써 획득되는 제2 이미지를, 상기 복수의 레이어 중 제2 레이어에 입력하는 동작을 포함하는, 방법.
PCT/KR2020/000063 2019-01-04 2020-01-02 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법 WO2020141907A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0001311 2019-01-04
KR1020190001311A KR20200092453A (ko) 2019-01-04 2019-01-04 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법

Publications (1)

Publication Number Publication Date
WO2020141907A1 true WO2020141907A1 (ko) 2020-07-09

Family

ID=71407042

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/000063 WO2020141907A1 (ko) 2019-01-04 2020-01-02 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법

Country Status (2)

Country Link
KR (1) KR20200092453A (ko)
WO (1) WO2020141907A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116710910A (zh) * 2020-12-29 2023-09-05 迪真诺有限公司 以通过学习生成的条件为基础的设计生成方法及其装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102636480B1 (ko) * 2023-11-28 2024-02-13 윤주희 인공지능 영상생성 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234175A (ja) * 2003-01-29 2004-08-19 Matsushita Electric Ind Co Ltd コンテンツ検索装置およびそのプログラム
US20070288438A1 (en) * 2006-06-12 2007-12-13 Zalag Corporation Methods and apparatuses for searching content
KR20100044669A (ko) * 2008-10-22 2010-04-30 엔에이치엔비즈니스플랫폼 주식회사 이미지 매칭에 기초한 상품 정보 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
KR20160083746A (ko) * 2015-01-02 2016-07-12 에스케이플래닛 주식회사 컨텐츠 추천 서비스 시스템, 그리고 이에 적용되는 장치 및 그 장치의 동작 방법
KR20160120674A (ko) * 2015-04-08 2016-10-18 주식회사 컴퍼니원헌드레드 그래픽 처리 장치를 이용한 의류 추천 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234175A (ja) * 2003-01-29 2004-08-19 Matsushita Electric Ind Co Ltd コンテンツ検索装置およびそのプログラム
US20070288438A1 (en) * 2006-06-12 2007-12-13 Zalag Corporation Methods and apparatuses for searching content
KR20100044669A (ko) * 2008-10-22 2010-04-30 엔에이치엔비즈니스플랫폼 주식회사 이미지 매칭에 기초한 상품 정보 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
KR20160083746A (ko) * 2015-01-02 2016-07-12 에스케이플래닛 주식회사 컨텐츠 추천 서비스 시스템, 그리고 이에 적용되는 장치 및 그 장치의 동작 방법
KR20160120674A (ko) * 2015-04-08 2016-10-18 주식회사 컴퍼니원헌드레드 그래픽 처리 장치를 이용한 의류 추천 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116710910A (zh) * 2020-12-29 2023-09-05 迪真诺有限公司 以通过学习生成的条件为基础的设计生成方法及其装置

Also Published As

Publication number Publication date
KR20200092453A (ko) 2020-08-04

Similar Documents

Publication Publication Date Title
WO2018212494A1 (ko) 객체를 식별하는 방법 및 디바이스
US20240028896A1 (en) Method and system for activity classification
WO2019031714A1 (ko) 객체를 인식하는 방법 및 장치
WO2020085694A1 (ko) 이미지 획득 장치 및 그의 제어 방법
WO2019098449A1 (ko) 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
WO2019098414A1 (ko) 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치
WO2019182346A1 (ko) 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
WO2020130747A1 (ko) 스타일 변환을 위한 영상 처리 장치 및 방법
WO2019050247A2 (ko) 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스
CN109614882A (zh) 一种基于人体姿态估计的暴力行为检测系统及方法
WO2015115681A1 (ko) 표정 동작사전을 이용한 표정인식 방법 및 장치
WO2020122432A1 (ko) 전자 장치 및 그의 3d 이미지 표시 방법
WO2019050297A1 (ko) 뉴럴 네트워크 학습 방법 및 장치
WO2020180134A1 (ko) 이미지 수정 시스템 및 이의 이미지 수정 방법
WO2020141907A1 (ko) 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법
WO2020159241A1 (ko) 이미지를 처리하기 위한 방법 및 그에 따른 장치
WO2019208950A1 (ko) 사용자에게 서비스를 제공하는 이동형 로봇 장치 및 방법
WO2018117538A1 (ko) 차선 정보를 추정하는 방법 및 전자 장치
WO2019231130A1 (ko) 전자 장치 및 그의 제어방법
WO2020022669A1 (ko) 인공지능 과제매칭 방법, 장치 및 프로그램
EP3685279A1 (en) Method for content search and electronic device therefor
WO2021010671A2 (ko) 뉴럴 네트워크 및 비국소적 블록을 이용하여 세그멘테이션을 수행하는 질병 진단 시스템 및 방법
WO2022019390A1 (ko) 데이터 증강 기반 사물 분석 모델 학습 장치 및 방법
WO2022097766A1 (ko) 가려진 영역 복원 방법 및 장치
WO2019054715A1 (ko) 전자 장치 및 이의 피드백 정보 획득 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20735877

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20735877

Country of ref document: EP

Kind code of ref document: A1