WO2021230675A1 - 딥러닝 기반 대상체 감성 인식 방법 및 장치 - Google Patents

딥러닝 기반 대상체 감성 인식 방법 및 장치 Download PDF

Info

Publication number
WO2021230675A1
WO2021230675A1 PCT/KR2021/006002 KR2021006002W WO2021230675A1 WO 2021230675 A1 WO2021230675 A1 WO 2021230675A1 KR 2021006002 W KR2021006002 W KR 2021006002W WO 2021230675 A1 WO2021230675 A1 WO 2021230675A1
Authority
WO
WIPO (PCT)
Prior art keywords
image data
emotional
input image
clusters
recognition model
Prior art date
Application number
PCT/KR2021/006002
Other languages
English (en)
French (fr)
Inventor
이종혁
조민지
서수현
이동진
방소연
Original Assignee
(주)사맛디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200122962A external-priority patent/KR20210139119A/ko
Application filed by (주)사맛디 filed Critical (주)사맛디
Publication of WO2021230675A1 publication Critical patent/WO2021230675A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to a method and apparatus for recognizing emotions of an object based on deep learning for calculating emotional characteristics of an object by using external and visual characteristics of the object.
  • CBIR content-based image retrieval
  • An object to be solved by the present invention is to provide a method and apparatus for recognizing emotions of an object based on deep learning for easily recognizing emotions of an object included in image data.
  • the deep learning-based object emotion recognition method performed by the server according to the present invention for solving the above-mentioned problems, is to input image data into an appearance characteristic recognition model, and calculate individual appearance characteristics for a plurality of appearance classification criteria. step; clustering a plurality of visual characteristics set based on the individual appearance characteristics into a plurality of emotional characteristics; collecting image data corresponding to at least one visual characteristic respectively matched to the plurality of emotional characteristics based on the clustered result; constructing a training dataset by matching the plurality of emotional characteristics to an output value (ground truth) corresponding to the collected image data; training an emotional characteristic recognition model based on the training dataset; and inputting the input image data into the emotional characteristic recognition model, and calculating the emotional characteristic of the object included in the input image data through the emotional characteristic recognition model.
  • the deep learning-based object emotion recognition method performed by the server comprises the steps of vectorizing at least one individual appearance characteristic corresponding to each of a plurality of image data to calculate a plurality of N-dimensional vectors; arranging the plurality of N-dimensional vectors in an N-dimensional space; determining a plurality of clusters based on the arrangement result; constructing a training dataset by mapping at least one image data included in each of the plurality of clusters to identification information of a corresponding cluster of the plurality of clusters; training an emotional characteristic recognition model based on the training dataset; and inputting the input image data into the emotional characteristic recognition model, and calculating a probability that the input image data is included in each of the plurality of clusters.
  • the present invention provides an apparatus for providing a method for recognizing emotion of an object based on deep learning, comprising: a plurality of models related to emotion recognition of an object based on deep learning; and inputting image data into an appearance characteristic recognition model among the plurality of models, calculating individual appearance characteristics for a plurality of appearance classification criteria, and clustering a plurality of visual characteristics set based on the individual appearance characteristics into a plurality of emotional characteristics and collects image data corresponding to at least one visual characteristic respectively matched to the plurality of emotional characteristics based on the clustered result, and collects the plurality of images as an output value (ground truth) corresponding to the collected image data.
  • a training dataset is constructed by matching emotional characteristics, an emotional characteristic recognition model is trained among the plurality of models based on the training dataset, and input image data is input to the emotional characteristic recognition model to recognize the emotional characteristic. It may include; a control unit for calculating the emotional characteristics of the object included in the input image data through the model.
  • the present invention it is possible to automatically and accurately extract the emotion of the object by using the appearance characteristic recognition module, the visual characteristic recognition module, and the emotion recognition module.
  • each emotional characteristic can be derived when the feelings between the various pieces are opposite.
  • the emotional characteristics of the object are classified according to the visual characteristics, the emotional characteristics can be objectively classified even without specialized knowledge of the object.
  • the present invention even if the composition of the image including the object is changed, the same emotion can be determined based on the visual characteristic, thereby increasing the reliability of the emotional characteristic determination.
  • emotional characteristics can be applied differently to each country based on the characteristics/language of each country.
  • FIG. 1 is a block diagram illustrating an object emotion recognition server according to the present invention.
  • FIG. 2 is a block diagram illustrating an appearance characteristic recognition model according to the present invention.
  • FIG. 3 is a block diagram illustrating a visual characteristic recognition model according to the present invention.
  • FIG. 4 is a block diagram illustrating an emotional characteristic recognition model according to the present invention.
  • FIG. 5 is a flowchart illustrating a method for recognizing an emotion of an object according to the present invention.
  • 6 and 7 are exemplary diagrams for explaining a method for recognizing an emotion of an object according to the present invention.
  • FIG. 8 is a flowchart illustrating a method for recognizing emotions of a plurality of types based on an object according to the present invention.
  • 9 to 11 are exemplary diagrams for explaining a method for recognizing emotions of a plurality of types based on an object according to the present invention.
  • FIG. 12 is a flowchart illustrating a method for recognizing emotion of an object based on a combination of a plurality of types according to the present invention.
  • FIG. 13 is an exemplary diagram illustrating a method for recognizing an object emotion based on a plurality of types combination according to the present invention.
  • FIG. 14 is a flowchart illustrating a method for recognizing an object emotion using a visual characteristic recognition model and an emotion recognition model according to the present invention.
  • 15 is a flowchart illustrating a method for recognizing an object emotion using a plurality of clusters according to the present invention.
  • 16 is a flowchart illustrating a method of determining whether an object includes a cluster according to a probability included in a plurality of clusters according to the present invention.
  • 17 is a flowchart illustrating a method for recognizing an object's emotion using a plurality of clusters and an emotional characteristic recognition model according to the present invention.
  • spatially relative terms “below”, “beneath”, “lower”, “above”, “upper”, etc. It can be used to easily describe the correlation between a component and other components.
  • a spatially relative term should be understood as a term that includes different directions of components during use or operation in addition to the directions shown in the drawings. For example, when a component shown in the drawing is turned over, a component described as “beneath” or “beneath” of another component may be placed “above” of the other component. can Accordingly, the exemplary term “below” may include both directions below and above. Components may also be oriented in other orientations, and thus spatially relative terms may be interpreted according to orientation.
  • the term 'subject' refers to an article of a specific classification or category for which a search is performed. For example, when a user searches for an image of a desired item in a shopping mall, and the user searches for clothing from among product categories, the object may be clothing.
  • 'image data' refers to a two-dimensional or three-dimensional static or dynamic image including a specific object. That is, 'image data' may be static image data that is one frame, or dynamic image data (ie, moving image data) in which a plurality of frames are continuous.
  • 'image data for learning' means image data used for training of a learning model.
  • 'input image data' is image data input to a learning model to obtain a learning result.
  • the 'appearance classification standard' refers to a classification standard for an appearance expression necessary for describing or annotating the appearance of a specific object. That is, the 'appearance classification criterion' is a specific classification criterion for describing the appearance of a specific object, and may include a plurality of individual appearance characteristics expressing various appearance characteristics within the same classification criterion of the object.
  • the appearance classification criterion is a classification criterion for the appearance of the clothing, and may correspond to a pattern, a color, a fit, a length, and the like. That is, if the appearance classification standard for a specific object increases, the appearance of a specific article belonging to the object may be described in detail.
  • the term 'individual appearance characteristics' refers to various characteristics included in specific appearance classification criteria. For example, when the appearance classification criterion is color, the individual appearance characteristics mean various individual colors.
  • 'visual characteristics' refer to various characteristics that can be defined through selection, combination, or additional limitation of some of the individual external characteristics to represent the visual attributes of an object. That is, the individual appearance characteristics include all characteristics related to the object's appearance, and the visual characteristics are a concept that serves as an intermediate medium for imparting emotional characteristics, which will be described later, and is a concept redefined using individual appearance characteristics. For example, when various patterns are included in the individual appearance characteristic, the visual characteristic may include only a check pattern. After all, the visual characteristic is a characteristic that is mapped with the emotional characteristic as an intermediate concept to utilize only some rather than all of the individual external characteristics including a wide variety of characteristics.
  • 'emotional or emotional characteristic' refers to an emotional characteristic given to a specific object.
  • it may be an emotional or fashionable expression such as vintage.
  • 1 is a block diagram illustrating an object emotion recognition server according to the present invention.
  • 2 is a block diagram illustrating an appearance characteristic recognition model according to the present invention.
  • 3 is a block diagram illustrating a visual characteristic recognition model according to the present invention.
  • 4 is a block diagram illustrating an emotional characteristic recognition model according to the present invention.
  • the server 10 executing the object emotion recognition method according to the present invention includes an object type recognition model 100 , an appearance characteristic recognition model 200 , a visual characteristic recognition model 300 , and an emotional characteristic recognition model. 400 , the controller 500 , and the database 600 may be included, and a method for recognizing an object emotion may be performed.
  • the object type recognition model 100, the appearance characteristic recognition model 200, the visual characteristic recognition model 300, and the emotional characteristic recognition model 400 are machine-learned in advance through a deep learning algorithm and a learning dataset. It may be a model capable of producing a specific result value.
  • the controller 500 controls the object type recognition model 100 , the appearance characteristic recognition model 200 , the visual characteristic recognition model 400 , the emotional characteristic recognition model 300 , and the database 600 , and each You can connect configurations and judge specific content using the result values of each model. More details will be described later. Meanwhile, all operations of the present invention described below may be performed by the control unit 500 or may be performed under the control of the control unit 500 .
  • the appearance characteristic recognition model 200 includes a combination of different individual characteristic recognition modules 110 for each object type.
  • the server 10 since fashion miscellaneous goods types (eg, shoes, wallets, bags) belonging to the same large category have different appearance classification criteria, the server 10 generates a combination of individual characteristic recognition modules 110 for each object type.
  • a specialized appearance characteristic recognition model for recognizing the appearance of a specific object is created.
  • the module may be integrated into one in the appearance characteristic recognition model without the individual characteristic recognition module.
  • the visual characteristic recognition model 400 calculates, as a result value, a visual characteristic that is defined by selecting, combining, or additionally limiting some of a plurality of individual external characteristics and representing the visual attribute of the object. It is a model that can That is, the individual appearance characteristics include all characteristics related to the object's appearance, and the visual characteristics are a concept that serves as an intermediate medium for imparting emotional characteristics, which will be described later, and is a concept redefined using individual appearance characteristics. For example, when various patterns are included in the individual appearance characteristics, the visual characteristics may include only a check pattern. After all, the visual characteristic is a characteristic that is mapped with the emotional characteristic as an intermediate concept to utilize only some rather than all of the individual external characteristics including a wide variety of characteristics.
  • the visual characteristics may be set in advance by using individual appearance characteristics or may be set through clustering using vectors. Details on this will be described later.
  • the visual characteristic recognition model 400 includes a combination of different individual characteristic recognition modules 110 for each object type. For example, since fashion miscellaneous goods types (eg, shoes, wallets, bags) belonging to the same large category have different appearance classification criteria, the server 10 generates a combination of individual characteristic recognition modules 110 for each object type. Thus, a specialized visual characteristic recognition model for recognizing a specific object visual characteristic is created. Of course, in contrast to this, the module may be integrated into one in the visual characteristic recognition model without the individual characteristic recognition module.
  • fashion miscellaneous goods types eg, shoes, wallets, bags
  • the emotional characteristic recognition model 300 includes a first emotional characteristic recognition model 310 for calculating a first emotional characteristic by receiving individual appearance characteristics and a second emotional characteristic recognition for calculating a second emotional characteristic.
  • Model 320 may be included.
  • the first emotional characteristic recognition model 310 may be a model for calculating the first emotional characteristic by machine learning the emotional characteristic mapped in advance to the visual characteristic
  • the second emotional characteristic recognition model 320 is the same. It may be a model for calculating the second emotional characteristic.
  • the description of the number of each model as two is merely exemplary, and the number of models may be added as much as necessary emotional characteristics.
  • the model may be implemented without individual modules as in the first emotional characteristic recognition model, or individual modules may be included as in the second emotional characteristic recognition model.
  • FIG. 5 is a flowchart illustrating a method for recognizing an emotion of an object according to the present invention.
  • 6 and 7 are exemplary diagrams for explaining a method for recognizing an emotion of an object according to the present invention.
  • the operations of FIG. 5 may be performed through the server 10 of FIG. 1 .
  • the server 10 inputs image data to the appearance characteristic recognition model 200 to calculate individual appearance characteristics for a plurality of appearance classification criteria.
  • the server 10 may provide the new input image data that has not been analyzed for the appearance characteristics to the appearance characteristic recognition model 100 to calculate individual appearance characteristics for each exterior classification criterion of a specific object.
  • input image data is input to each individual characteristic recognition module 110 in the exterior characteristic recognition model 200, and a plurality of individual appearance characteristics for the input image data are calculated. do.
  • the server 10 acquires all the individual appearance characteristics of each appearance classification criterion for the input image data.
  • the individual characteristic recognition module 110 is trained through a deep learning learning model by matching individual appearance characteristics of a specific appearance classification criterion with respect to a plurality of learning image data. That is, the individual characteristic recognition module 110 is built with a specific deep learning algorithm, and learning is performed by matching a specific one of a plurality of external classification criteria with image data for learning.
  • the server 10 may perform a process of training each individual characteristic recognition module 110 as follows.
  • the server 10 acquires a plurality of learning image data for a specific object.
  • the object is a specific clothing type (eg, a shirt)
  • the server 10 acquires images of several shirts.
  • the server 10 may be selected by an expert from among previously stored image data, or may newly acquire an image of an object that is easy to learn.
  • the server 10 acquires a definition of each appearance classification criterion and a plurality of individual appearance characteristics for each appearance classification criterion. That is, the server 10 sets the initial number of individual characteristic recognition modules 110 as a plurality of appearance classification criteria are set. Then, the server 10 sets a feature type for labeling the image data for learning with respect to each appearance classification criterion by setting a plurality of individual appearance characteristics in each appearance classification criterion.
  • the server 10 may receive a plurality of appearance classification criteria for analyzing a specific object appearance and a plurality of individual appearance characteristics within each external appearance classification criterion from an expert client for analyzing a specific object appearance. For example, when building the appearance characteristic recognition model 200 for clothing, the server 10 may receive an appearance classification standard and individual appearance characteristics included therein from a client of a designer who is a clothing expert.
  • the server 10 labels the training image data with a plurality of individual appearance characteristics of each appearance classification criterion. That is, the server 10 receives and matches at least one individual appearance characteristic for each of the plurality of appearance classification criteria for each training image data. For example, when 10 appearance classification criteria are set for a specific object, the server 10 receives one individual appearance characteristic for each 10 appearance classification criteria for each training image data including the corresponding object, A training dataset is formed by matching the image data and 10 individual type characteristics.
  • the server 10 performs training by matching the individual appearance characteristics of the image data for learning and the specific appearance classification criteria labeled therefor. That is, when the server 10 trains the individual characteristic recognition module 110 for the A appearance classification criterion, only the image data for learning and the individual appearance characteristics of the A appearance classification criterion matched thereto are extracted from the learning dataset for deep learning. input into the learning model. Through this, the server 10 builds each individual characteristic recognition module 110 capable of recognizing individual appearance characteristics of each exterior classification criterion.
  • the appearance characteristic recognition model 200 includes a combination of different individual characteristic recognition modules 110 for each object type, as shown in FIG. 2 .
  • the server 10 since fashion miscellaneous goods types (eg, shoes, wallets, bags) belonging to the same large category have different appearance classification criteria, the server 10 generates a combination of individual characteristic recognition modules 110 for each object type.
  • a specialized appearance characteristic recognition model for recognizing the appearance of a specific object is created.
  • each external characteristic recognition model 100 for a plurality of objects may share and use a specific individual characteristic recognition module 110 .
  • the color recognition module can be used universally irrespective of the type of object, so that the server 10 has a plurality of external characteristics distinguished for each object.
  • a general-purpose color recognition module may be used in the recognition model 100 .
  • the server 10 may cluster a plurality of visual characteristics set based on individual appearance characteristics into a plurality of emotional characteristics.
  • a plurality of visual characteristics may be predefined, a plurality of emotional characteristics may also be predefined, and a table in which a plurality of visual characteristics and a plurality of emotional characteristics are mapped in advance may be stored, and according to the table, A plurality of visual characteristics may be clustered into a plurality of emotional characteristics.
  • the dot pattern may be defined as a visual characteristic, and the dot pattern may be mapped to Surrey among the emotional characteristics, and the visual characteristics calculated according to this mapping table can be applied to any of the specific emotional characteristics. can be clustered into one.
  • the plurality of emotional characteristics are Natural, Secondary, Sexy, Vintage, Ethnic, Classic, Elegance, and Active. , Wild and Chic.
  • the emotional characteristic may be a concept in which an atmosphere expressed in fashion is imaged and embodied.
  • Active is a fashion image that adds the functionality and activity of sports wear, emphasizing health and functionality, and may be a concept expressing an active sense of movement.
  • Poly material anorak, functional material slim fit, zip-up Visual characteristics such as & hoodie zip-up, functional material slim fit, long T-shirt, Track jacket & sideline colorblock, zipper opening, Solid leggings, Side line colorblock & track pants, Side line color block & banding skirt are active can be clustered.
  • Chic is an image with urban sophistication and may be a concept that pursues simplicity to express individuality and modernity.
  • visual characteristics such as Top, Leather & mustang, pants, Leather, skirt skirt, Leather, etc. may be clustered in chic.
  • Classic is a traditional fashion image that does not change according to the trend and lasts for a long time. It can be basic and mature and stable, Check pattern (except gingham check), Double button trench coat, Solid Classic visual characteristics such as coat & jacket, Solid & pin stripe shirt, pants pants, Check pattern (except gingham check), Slacks, ankle exposure, skirt skirt, Check long skirt (except gingham check), Solid long H-line skirt can be clustered.
  • Elegance is an emotional style that aims for an elegant and dignified image, and may be a concept expressing mature ceremoniity by using luxurious materials with drape and emphasizing the curves of the human body.
  • Ethnic is a style designed with a modern sense inspired by folk costumes handed down from each country, unique dyeing methods, fabrics, and embroidery, and the color tones can be varied and deep and rich.
  • visual characteristics such as Tropical pattern, Bohemian blouse, Ethnic & paisley pattern, Tropical pattern, Ethnic & paisley pattern, Tropical pattern, and Ethnic & paisley pattern may be clustered as ethnic.
  • natural refers to an unadorned image of nature, and may be a style that gives a casual and comfortable feeling using denim or cotton.
  • Denim Colorblock pocket
  • zipper opening fleece jacket Loose fit, cotton T-shirt, Short & mid length field jacket, Loose fit, cotton hoodie, Solid padding, Baseball jacket & blouson, Knit & cardigan, Cotton, shorts, Knit , Cotton, wide pants, boots cut pants, Jogger pants (no patch pocket), Cotton, long skinny pants, Cotton, single button, Cotton, inner pocket skirt, etc.
  • Visual characteristics can be clustered naturally.
  • sexy is not a fashion image, but it is one of the sensibility that cannot be left out. It can be a sensibility that maximizes this with a tight silhouette, giving a sexual image by exposing the shoulders, chest, and stomach.
  • visual products such as Crop slim fit, one shoulder & off shoulder, Bra & bikini, Crop slim fit, sleeveless top, Tube top, Stocking, Extra-short length pants, Solid short H-line skirt, Solid short A-line skirt, etc. Characteristics can be clustered as sexy.
  • Vintage is an old-fashioned, old-fashioned style picked up at a flea market or old-fashioned store, and may have an image similar to 'country'.
  • visual characteristics such as knit stripe & fair isle pattern and tie-dye pattern may be clustered into vintage.
  • Wild is not affected by formality and tradition, so its popularity is not great, but it is a good sensibility to match with points, and may include some military or Avant-garde feelings.
  • visual characteristics such as Long fur, Camouflage pattern, Animal pattern (except spotted pattern), Animal pattern (except spotted pattern), Camouflage pattern, Side out pocket & cargo pants, Side out pocket & cargo skirt can be clustered as wild. have.
  • the server 10 collects image data corresponding to at least one visual characteristic respectively matched to the plurality of emotional characteristics based on the clustering result in operation 53, and outputs the image data corresponding to the collected image data.
  • a training dataset can be built by matching multiple emotional characteristics to the ground truth.
  • the training dataset may include image data that matches Jardin as a result value and corresponds to a dot pattern.
  • the image data that corresponds to various visual characteristics and matches emotional characteristics as the result value is the training dataset. can be included in
  • the server 10 may train an emotional characteristic recognition model based on the training dataset. Since the method of training the emotional recognition model is the same as the method of training the appearance characteristic recognition model described above, a detailed description thereof will be omitted.
  • the server 10 may input the input image data into the emotional characteristic recognition model, and calculate the emotional characteristic of the object included in the input image data through the emotional characteristic recognition model.
  • the emotional characteristic may be calculated as a probability value, and at least one emotional characteristic may be determined according to a distribution of the probability value.
  • the object may be clothing worn by a person in the photo, and the emotional characteristic of the object is natural according to the distribution of probability values, and the vintage and active It can be determined as included, and other emotional characteristics (sexy, pure, cute, classic) can be excluded because the probability value is low.
  • the object may be clothing worn by a person in the photo, and the emotional characteristics of the object are most predominant in vintage according to the distribution of probability values, and classic and It can be judged that cute is also included.
  • FIG. 8 is a flowchart illustrating a method for recognizing emotions of a plurality of types based on an object according to the present invention.
  • 9 to 11 are exemplary diagrams for explaining a method for recognizing emotions of a plurality of types based on an object according to the present invention.
  • the operations of FIG. 8 may be performed through the server 10 of FIG. 1 .
  • the server 10 may classify an object into a plurality of types according to a classification criterion in operation 81 .
  • the classification criterion may be a top, pants, a skirt, and a dress.
  • the server 10 may train an emotional characteristic recognition model for each type corresponding to each of the plurality of types based on the training dataset and the plurality of types. Since the method of training the emotional characteristic recognition model for each type is performed in the same way as the method of training the appearance characteristic recognition model, a detailed description thereof will be omitted.
  • each of the emotional characteristics in the learning dataset may be mapped to a visual characteristic for a plurality of types.
  • Active is anorak made of Poly material on top, slim fit of functional material, zip-up & hoodie zip-up, slim fit of functional material, long T-shirt, Track jacket & sideline colorblock, zipper opening It may be mapped with visual characteristics such as, etc., may be mapped with visual characteristics such as solid leggings, side line colorblock & track pants, etc. in pants, and may be mapped with visual characteristics such as side line color block & banding skirt in skirts.
  • chic may be mapped to visual characteristics such as Leather & mustang in a top, may be mapped to visual characteristics such as Leather in pants, and may be mapped to visual characteristics such as leather in a skirt.
  • classic can be mapped with visual characteristics such as Check pattern (except gingham check), Double button trench coat, Solid coat & jacket, Solid & pin stripe shirt on top, Check pattern (except gingham check) on pants It can be mapped with visual characteristics such as , slacks, ankle exposure, etc., and can be mapped with visual characteristics such as check long skirt (except gingham check) and solid long H-line skirt from the skirt.
  • Elegance can be mapped with visual characteristics such as Silk, No collar, solid wrap blouse, Tweed & pearl, gold deco, No collar, solid chiffon blouse, Silk sukajan jumper, All collar blouse (except shirt collar) on the top.
  • visual characteristics such as Silk slacks, Silk shorts, Tweed, Wide long & maxi slacks, and in skirts, Silk skirt, Lace skirt, Tweed & pearl, gold deco, Mermaid line skirt, See-through It can be mapped to visual characteristics such as skirts and solid long flared skirts.
  • ethnicity can be mapped with visual characteristics such as Tropical pattern, Bohemian blouse, and Ethnic & paisley pattern on top, and can be mapped with visual characteristics such as Tropical pattern, Ethnic & paisley pattern on pants, and Tropical pattern on skirt , can be mapped with visual characteristics such as Ethnic & paisley pattern.
  • Natural is Denim, Colorblock pocket, zipper opening fleece jacket, Loose fit, cotton T-shirt, Short & mid length field jacket, Loose fit, cotton hoodie, Solid padding, Baseball jacket & blouson, Knit & cardigan in tops. It can be mapped with visual characteristics such as Denim, Cotton, shorts, Knit, Cotton, wide pants, Cotton, boots cut pants, Jogger pants (no patch pocket), Cotton, long skinny pants, etc. from the pants. In the skirt, it can be mapped with the visual characteristics of Denim, Cotton, single button, Knit, Cotton, and inner pocket skirt.
  • sexy can be mapped to visual attributes such as Crop slim fit, one shoulder & off shoulder, Bra & bikini, Crop slim fit, sleeveless top, Tube top in tops, Stocking in pants, Extra-short length pants, etc. It may be mapped with visual characteristics such as a solid short H-line skirt, a solid short A-line skirt, and the like in a skirt.
  • vintage may be mapped with visual characteristics such as knit stripe & fair isle pattern and tie-dye pattern on top, and may be mapped with visual characteristics such as tie-dye pattern on pants, and tie-dye pattern in skirt It can be mapped with visual characteristics such as pattern.
  • wilds can be mapped to visual characteristics such as Long fur, Camouflage pattern, Animal pattern (except spotted pattern) on tops, and Animal pattern (except spotted pattern), Camouflage pattern, Side out pocket & cargo pants on trousers. It can be mapped with visual characteristics such as Animal pattern (except spotted pattern, Camouflage pattern, Side out pocket & cargo skirt) in skirts.
  • the server 10 may classify the object included in the input image data into a plurality of types according to classification criteria. For example, the server 10 may segment clothes in the image, and crop the divided clothes into a top and a skirt. For example, as shown in FIG. 9 , after dividing clothing from the image, it may be cropped into a top and a skirt.
  • segmentation and cropping may be performed using a known method.
  • the server 10 inputs the input image data to a corresponding emotional characteristic recognition model among the emotional recognition models for each type based on the classification result, and then adds the input image data to the input image data through the corresponding emotional characteristic recognition model.
  • An emotional characteristic of the included object may be calculated.
  • the jacket of the top may be determined by the emotional characteristics of natural and wild, and the skirt may be determined by the emotional characteristics of the wild.
  • emotional characteristics of classics may be calculated for tops
  • emotional characteristics of naturals may be calculated for pants.
  • FIG. 12 is a flowchart illustrating a method for recognizing emotion of an object based on a plurality of type combinations according to the present invention.
  • 13 is an exemplary diagram for explaining a method for recognizing an emotion of an object based on a plurality of types combination according to the present invention.
  • the operations of FIG. 12 may be performed through the server 10 of FIG. 1 .
  • the server 10 may calculate a plurality of emotional characteristics from the object for each of the plurality of types in operation 121 , and in operation 122 , at least two of the plurality of emotional characteristics
  • a new emotional characteristic can be calculated by combining more than one.
  • the emotional characteristic of the top may be classified as sexy, and the emotional characteristic of the pants may be classified as active, and based on this, a new emotional characteristic of being sexy is derived. can do.
  • the content of deriving sexy may be performed through an emotional characteristic recognition model or may be performed through a separate module called the control unit 500 .
  • FIG. 14 is a flowchart illustrating a method for recognizing an object emotion using a visual characteristic recognition model and an emotion recognition model according to the present invention. The operations of FIG. 14 may be performed through the server 10 of FIG. 1 .
  • the embodiment of FIG. 14 is a case in which a separate learning model for recognizing visual characteristics is introduced differently from the embodiment of FIG. 5 .
  • the server 10 collects first image data corresponding to a plurality of visual characteristics set based on individual appearance characteristics for a plurality of appearance classification criteria, and the A first training dataset may be constructed by matching a plurality of visual characteristics to an output value (ground truth) corresponding to the collected first image data.
  • the first training dataset may include training data in which a visual characteristic of clothing including a dot pattern is set as an output value of the dot pattern.
  • the server 10 may train a visual characteristic recognition model based on the first training dataset in operation 142 . Since the method of training the visual characteristic recognition model is performed in the same manner as the method of training the appearance characteristic recognition model, a detailed description thereof will be omitted.
  • the server 10 may cluster a plurality of visual characteristics into a plurality of emotional characteristics in operation 143 . Since operation 143 is the same as operation 52, a detailed description thereof will be omitted.
  • the server 10 collects second image data corresponding to at least one visual characteristic matching the plurality of emotional characteristics based on the clustering result in operation 144, and the collected second image data
  • a second training dataset may be constructed by matching the plurality of emotional characteristics to an output value (ground truth) corresponding to .
  • the server 10 may train an emotional characteristic recognition model based on the second training dataset in operation 145 .
  • the server 10 may input the input image data into the visual characteristic recognition model to calculate the visual characteristics.
  • a dot pattern can be calculated as a visual characteristic in clothing that includes a dot pattern.
  • the server 10 may input the calculated visual characteristic to the emotional characteristic recognition model in operation 147 to calculate the emotional characteristic of the object included in the input image data.
  • the dot pattern can be matched with the emotional characteristic of beautiful.
  • FIG. 15 is a flowchart illustrating a method for recognizing an object emotion using a plurality of clusters according to the present invention. The operations of FIG. 15 may be performed through the server 10 of FIG. 1 .
  • the server 10 may vectorize at least one individual appearance characteristic corresponding to each of a plurality of image data to calculate a plurality of N-dimensional vectors.
  • individual appearance characteristics may include all characteristics that can specify an object, such as arm length and collar shape, and when there are N total of these characteristics, an N-dimensional vector is generated for each object included in each image data. can be calculated.
  • the server 10 may arrange a plurality of N-dimensional vectors in an N-dimensional space in operation 152 , and determine a plurality of clusters based on the arrangement result in operation 153 .
  • clusters may be divided based on a result of arranging N-dimensional vectors of objects at each point in the N-dimensional space, and identification information may be assigned to each cluster.
  • the identification information may include an identification value for distinguishing an emotional characteristic or a group.
  • the server 10 maps at least one image data included in each of the plurality of clusters to identification information of the corresponding cluster of the plurality of clusters to construct a training dataset.
  • an emotional characteristic recognition model may be trained based on the training dataset.
  • the server 10 may input the input image data into the emotional characteristic recognition model to calculate a probability of being included in each of the plurality of clusters.
  • a probability of being included in each of a plurality of clusters may be the same as a probability of an emotional characteristic.
  • each of the plurality of clusters may represent a specific image group according to the external characteristic. That is, when a specific cluster mostly includes images including clothes with turtlenecks in the N-dimensional space, when clothes with turtlenecks are included in the input image data, the specific cluster may include them.
  • the server 10 may map a plurality of clusters to a plurality of emotional characteristics, respectively. For example, in operation 157, when identification information of a plurality of clusters does not match an emotional characteristic but includes only an identification value, the server 10 may separately map a plurality of clusters to a plurality of emotional characteristics. Accordingly, operation 157 may be omitted when the emotional characteristic is already included in the identification information.
  • the server 10 may determine the emotional characteristic of the input image data based on the mapping result and the probability of being included in each of the plurality of clusters. For example, when a specific cluster is mapped to be active and input image data is included in the specific cluster, the emotional characteristic may be determined to be active.
  • the server 10 may calculate the emotional characteristic by additionally considering the characteristics of each country and the language. That is, the server 10 may set the mapping table between the identification information of each cluster and the emotional characteristics differently for each country or region, and through this setting, different emotions may be applied to the same object for each country. Accordingly, the mapping table may be changed by adding country/region codes to the mapping table between the identification information and the emotional characteristics.
  • FIG. 16 is a flowchart illustrating a method of determining whether an object includes a cluster according to a probability included in a plurality of clusters according to the present invention. The operations of FIG. 16 may be performed through the server 10 of FIG. 1 .
  • the server 10 may compare probabilities of being included in each of a plurality of clusters with each other. For example, a specific image may not be included in only one cluster but may be included in multiple clusters.
  • the server 10 performs a comparison result that, as a result of the comparison, a probability that the specific image is included in a specific cluster among the plurality of clusters is higher than a first threshold value, or is included in another cluster among the plurality of clusters.
  • a probability that the specific image is included in a specific cluster among the plurality of clusters is higher than a first threshold value, or is included in another cluster among the plurality of clusters.
  • it may be determined that the input image data is included in a specific cluster.
  • a specific image may be included in multiple clusters. In this case, mapping of all clusters to the specific image is inefficient in terms of data management, so an absolute value called the first threshold value is set or a relative value called the second threshold value is set. You can set the number.
  • the image data may be determined to be included in the corresponding cluster. 2 If there is a difference of 0.3 or more, which is the threshold, it can be determined that the image data is included in one cluster.
  • the server 10 determines that, as a result of the comparison, the difference between the probability that the input image data is included in one cluster among the plurality of clusters and the probability that the other cluster is included is greater than the third threshold value.
  • the server may determine that the input image data is included in at least one cluster having a higher probability than the fourth threshold value. For example, when the probability that the input image is included in the first cluster and the second cluster is 0.6 and 0.65, the third threshold value is 0.1, and the fourth threshold value is 0.3, the corresponding input image is the first cluster and the second cluster, respectively. can be considered to be included in all of them.
  • the third threshold may be a criterion for determining whether to be included in each cluster or only one cluster according to a relative difference
  • the fourth threshold may be a criterion for excluding cases where the probability value is too low. . That is, the probability that any one input image is included in the third cluster and the fourth cluster is 2.3 and 2.7, respectively, so even if the third threshold value is satisfied, the fourth threshold value is not satisfied. It can be determined that it is not included in the cluster. That is, if the probability value is very low, it is reasonable to assume that it is not included in the corresponding cluster.
  • the server 10 determines that the input image data is included in the plurality of clusters. It is determined that it is not included in the , and the input image data may be classified into a new cluster according to the determined result. As described above, when the value is lower than the fourth threshold, it is not appropriate to classify the cluster as a new cluster.
  • FIG. 17 is a flowchart illustrating a method for recognizing an object's emotion using a plurality of clusters and an emotional characteristic recognition model according to the present invention.
  • the operations of FIG. 17 may be performed through the server 10 of FIG. 1 .
  • 17 may be an embodiment in which the method of determining a plurality of clusters of FIG. 15 and the emotional characteristic recognition model are combined.
  • the server 10 may input image data into an appearance characteristic recognition model to calculate individual appearance characteristics for a plurality of appearance classification criteria.
  • the server 10 may cluster the image data based on a plurality of visual characteristics set based on individual appearance characteristics.
  • clustering may be performed similarly to the method of determining clusters by using the N-dimensional vector and space of FIG. 15 .
  • clothing having the same dot pattern may be clustered into one cluster.
  • the server 10 may determine a plurality of clusters based on clustering in operation 173 . For example, clothes having the same dot pattern may be determined as one cluster, and an identification value of the corresponding cluster may be determined as a dot pattern.
  • the server 10 may build a training dataset by mapping at least one image data included in each of the plurality of clusters to identification information of a corresponding cluster in operation 174, and in operation 175, learning An emotional characteristic recognition model can be trained based on the dataset. That is, it is possible to train the emotional characteristic recognition model by using a plurality of clusters clustered based on the visual characteristic.
  • the server 10 may input the input image data into the emotional characteristic recognition model to calculate a probability of being included in each of the plurality of clusters. As a result of the calculation, as described above, various emotional characteristics may be calculated as probability values.
  • a software module may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any type of computer-readable recording medium well known in the art to which the present invention pertains.
  • RAM random access memory
  • ROM read only memory
  • EPROM erasable programmable ROM
  • EEPROM electrically erasable programmable ROM
  • flash memory hard disk, removable disk, CD-ROM, or It may reside in any type of computer-readable recording medium well known in the art to which the present invention pertains.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 영상데이터에 포함된 대상체의 외형 특성과 시각적 특성을 이용하여 대상체의 감성적 특성을 산출하고, 상기 산출된 감성적 특성을 기반으로 감성을 손쉽게 인식하도록 하는 딥러닝 기반 대상체 감성 인식 방법 및 장치에 관한 것이다. 본 발명에 따르면, 영상데이터에 포함된 대상체의 감성을 손쉽게 확인할 수 있고, 외형 특성 인식모듈, 시각적 특성 인식모듈 및 감성 인식 모듈을 활용하여 대상체의 감성을 자동으로 정확하게 추출할 수 있고, 서로 유사한 외형특성을 가진 대상체들을 클러스터링함으로써 대상체의 분류를 손쉽게 할 수 있다.

Description

딥러닝 기반 대상체 감성 인식 방법 및 장치
본 발명은 대상체의 외형 특성과 시각적 특성을 이용하여 대상체의 감성적 특성을 산출하는 딥러닝 기반 대상체 감성 인식 방법 및 장치에 관한 것이다.
최근 인터넷의 발달로 소셜 미디어 네트워크 서비스가 급격히 성장하고 있다. 그 결과, 멀티미디어의 양이 폭발적으로 증가하면서 효과적인 이미지 검색 시스템이 요구되며, 이미지 어노테이션은 폭발적으로 증가하는 웹이미지에 따른 효율적인 이미지 검색의 필요성으로 인해 그 중요도가 점점 높아지고 있다.
대부분의 이미지 검색 연구는 주로 이미지의 내용을 분석하는 내용 기반 이미지 검색(CBIR: Content-based Image Retrieval) 방법이 많이 진행되어 왔다. 내용 기반 이미지 검색은 색상, 텍스처 및 형태와 같은 시각적 특징을 이용하여 이미지의 내용을 분석한다. 이러한 방법은 정의하는 태그의 개수가 적을 경우에는 잘 작동하지만, 데이터셋이 커지고 태그의 종류가 다양해짐에 따라 성능이 떨어지게 된다.
특히, 최근 이미지의 형상, 텍스트 등 시각적인 특징 이외에도 이미지가 가지고 있는 감성 등 부가적인 특징들을 활용하여 이미지를 검색하고자 하는 수요가 늘어나고 있어 이미지에 포함된 감성 등 부가적인 특징을 인식하는 방법의 필요성이 높아지고 있다.
본 발명이 해결하고자 하는 과제는 영상데이터에 포함된 대상체의 감성을 손쉽게 인식하는 딥러닝 기반 대상체 감성 인식 방법 및 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명에 따른 서버에 의해 수행되는, 딥러닝 기반 대상체 감성 인식 방법은, 영상데이터를 외형특성 인식모델에 입력하여, 복수의 외형분류기준에 대한 개별외형특성을 산출하는 단계; 상기 개별외형특성에 기초하여 설정된 복수의 시각적 특성들을 복수의 감성적 특성으로 클러스터링하는 단계; 상기 클러스터링된 결과에 기반하여 상기 복수의 감성적 특성에 각각 매칭되는 적어도 하나의 시각적 특성에 대응하는 영상데이터를 수집하는 단계; 상기 수집된 영상데이터에 대응하는 출력 값(ground truth)에 상기 복수의 감성적 특성을 매칭하여 학습데이터셋을 구축하는 단계; 상기 학습데이터셋을 기반으로 감성특성 인식모델을 트레이닝하는 단계; 및 입력영상데이터를 상기 감성특성 인식모델에 입력하여, 상기 감성특성 인식모델을 통해 상기 입력영상데이터에 포함된 대상체의 감성적 특성을 산출하는 단계;를 포함할 수 있다.
또한, 본 발명에 따른 서버에 의해 수행되는, 딥러닝 기반 대상체 감성 인식 방법은, 복수의 영상데이터 각각에 대응하는 적어도 하나의 개별외형특성을 벡터화하여 복수의 N차원 벡터를 산출하는 단계; 상기 복수의 N차원 벡터를 N차원 공간에 배치하는 단계; 상기 배치된 결과에 기반하여 복수의 클러스터를 결정하는 단계; 상기 복수의 클러스터 각각에 포함된 적어도 하나의 영상데이터를 상기 복수의 클러스터의 해당 클러스터의 식별 정보에 각각 매핑(mapping)하여 학습데이터셋을 구축하는 단계; 상기 학습데이터셋을 기반으로 감성특성 인식모델을 트레이닝하는 단계; 및 입력영상데이터를 상기 감성특성 인식모델에 입력하여, 상기 입력영상데이터가 상기 복수의 클러스터 각각에 포함될 확률을 산출하는 단계;를 포함할 수 있다.
또한, 본 발명은 딥러닝 기반의 대상체의 감성 인식 방법을 제공하기 위한 장치에 있어서, 상기 딥러닝 기반의 대상체의 감성 인식과 관련된 복수의 모델; 및 영상데이터를 상기 복수의 모델 중 외형특성 인식모델에 입력하여, 복수의 외형분류기준에 대한 개별외형특성을 산출하고, 상기 개별외형특성에 기초하여 설정된 복수의 시각적 특성들을 복수의 감성적 특성으로 클러스터링하고, 상기 클러스터링된 결과에 기반하여 상기 복수의 감성적 특성에 각각 매칭되는 적어도 하나의 시각적 특성에 대응하는 영상데이터를 수집하고, 상기 수집된 영상데이터에 대응하는 출력 값(ground truth)에 상기 복수의 감성적 특성을 매칭하여 학습데이터셋을 구축하고, 상기 학습데이터셋을 기반으로 상기 복수의 모델 중 감성특성 인식모델을 트레이닝하며, 그리고 입력영상데이터를 상기 감성특성 인식모델에 입력하여, 상기 감성특성 인식모델을 통해 상기 입력영상데이터에 포함된 대상체의 감성적 특성을 산출하는 제어부;를 포함할 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
상기와 같은 본 발명에 따르면, 아래와 같은 다양한 효과들을 가진다.
본 발명에 따르면, 영상데이터에 포함된 대상체의 감성을 손쉽게 확인할 수 있다.
또한, 본 발명에 따르면, 외형 특성 인식모듈, 시각적 특성 인식모듈 및 감성 인식 모듈을 활용하여 대상체의 감성을 자동으로 정확하게 추출할 수 있다.
또한, 본 발명에 따르면, 서로 유사한 외형특성을 가진 대상체들을 클러스터링함으로써 대상체의 분류를 손쉽게 할 수 있다.
또한, 본 발명에 따르면, 대상체를 여러 피스(piece)로 분할하여 감성적 특성을 인식함으로써 여러 피스간 느낌이 상반될 때 각각의 감성적 특성이 도출될 수 있다.
또한, 본 발명에 따르면, 시각적 특성에 따라서 대상체의 감성적 특성을 분류함에 따라 대상체에 대한 전문적인 지식이 없어도 객관적으로 감성적 특성을 분류할 수 있다.
또한, 본 발명에 따르면, 대상체가 포함된 이미지의 구도가 달라져도 시각적 특성을 기준으로 동일한 감성으로 판단할 수 있으며 이를 통해 감성적 특성 판단의 신뢰성을 높일 수 있다.
또한, 본 발명에 따르면, 각국 특성/언어를 기반으로 감성적 특성을 국가별로 다르게 적용할 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명에 따른 대상체 감성 인식 서버를 나타낸 블록도이다.
도 2는 본 발명에 따른 외형특성 인식모델을 나타낸 블록도이다.
도 3은 본 발명에 따른 시각적 특성 인식모델을 나타낸 블록도이다.
도 4는 본 발명에 따른 감성특성 인식모델을 나타낸 블록도이다.
도 5는 본 발명에 따른 대상체 감성 인식 방법을 설명하기 위한 흐름도이다.
도 6 및 도 7은 본 발명에 따른 대상체 감성 인식 방법을 설명하기 위한 예시도이다.
도 8은 본 발명에 따른 복수의 유형 기반 대상체 감성 인식 방법을 설명하기 위한 흐름도이다.
도 9 내지 도 11은 본 발명에 따른 복수의 유형 기반 대상체 감성 인식 방법을 설명하기 위한 예시도이다.
도 12는 본 발명에 따른 복수의 유형 조합 기반 대상체 감성 인식 방법을 설명하기 위한 흐름도이다.
도 13은 본 발명에 따른 복수의 유형 조합 기반 대상체 감성 인식 방법을 설명하기 위한 예시도이다.
도 14은 본 발명에 따른 시각적 특성 인식모델과 감성 인식 모델을 활용한 대상체 감성 인식 방법을 설명하기 위한 흐름도이다.
도 15는 본 발명에 따른 복수의 클러스터를 활용한 대상체 감성 인식 방법을 설명하기 위한 흐름도이다.
도 16은 본 발명에 따른 복수의 클러스터에 포함된 확률에 따라 대상체의 클러스터 포함 여부를 판단하는 방법을 설명하기 위한 흐름도이다.
도 17은 본 발명에 따른 복수의 클러스터 및 감성특성 인식모델을 활용한 대상체 감성 인식 방법을 설명하기 위한 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
본 명세서에서 '대상체'는 검색을 수행하는 특정한 분류 또는 카테고리의 물품을 의미한다. 예를 들어, 쇼핑몰에서 원하는 물품의 이미지를 검색하고자 할 때, 사용자가 물품 카테고리 중에서 의류 검색을 수행하는 경우, 대상체는 의류일 수 있다.
본 명세서에서, '영상데이터'는 특정한 대상체를 포함하는 2차원 또는 3차원의 정적 또는 동적 이미지를 의미한다. 즉, '영상데이터'는 하나의 프레임인 정적 영상데이터일 수도 있고, 복수의 프레임이 연속되는 동적 영상데이터(즉, 동영상데이터)일 수도 있다.
본 명세서에서, '학습용 영상데이터'는 학습모델의 트레이닝에 이용되는 영상데이터를 의미한다.
본 명세서에서, '입력영상데이터'는 학습모델에 입력되어 학습결과를 획득하고자 하는 영상데이터이다.
본 명세서에서 '외형분류기준'은 특정한 대상체의 외형을 서술(description)하거나 주석 삽입(annotation)을 위해 필요한 외형 표현의 분류기준을 의미한다. 즉, '외형분류기준'은 특정한 대상체의 외형을 서술하기 위한 특정한 분류기준으로서, 상기 대상체의 동일한 분류기준 내의 다양한 외형특성을 표현하는 복수의 개별외형특성을 포함할 수 있다.
예를 들어, 대상체가 의류인 경우, 외형분류기준은 의류의 외형에 대한 분류기준으로, 패턴(Pattern), 색상(Color), 핏(fit), 기장(Length) 등이 해당될 수 있다. 즉, 특정한 대상체에 대해 외형분류기준이 많아지면, 대상체에 속하는 특정한 물품의 외형을 상세히 기술할 수 있다.
본 명세서에서 '개별외형특성'은 특정한 외형분류기준 내에 포함되는 다양한 특성을 의미한다. 예를 들어, 외형분류기준이 색상인 경우, 개별외형특성은 다양한 개별 색상을 의미한다.
본 명세서에서 '시각적 특성'은 개별외형특성들에서 일부를 선택, 조합 또는 추가 한정 등을 통해 정의되어 대상체의 시각적 속성을 대표할 수 있는 다양한 특성을 의미한다. 즉, 개별외형특성은 대상체의 외형에 관한 모든 특성을 포함하고, 시각적 특성은 후술할 감성적 특성을 부여하기 위한 중간 매개가 되는 개념으로서 개별외형특성을 이용하여 재정의되는 개념이다. 예를 들어, 개별외형특성에 다양한 패턴들이 포함될 경우, 시각적 특성은 체크 패턴만을 포함할 수 있다. 결국, 시각적 특성은 매우 다양한 특성들을 포함하는 개별외형특성들을 모두 활용하기 보다는 일부만을 활용하기 위한 중간 매개가 되는 개념으로써 감성적 특성와 매핑되는 특성이다.
본 명세서에서 '감성 또는 감성적 특성'은 특정한 대상체에 대해 부여되는 감성적인 특성을 의미한다. 예를 들어, 의류인 경우, 빈티지와 같은 감성적 또는 유행적 표현일 수 있다.
도 1 은 본 발명에 따른 대상체 감성 인식 서버를 나타낸 블록도이다. 도 2는 본 발명에 따른 외형특성 인식모델을 나타낸 블록도이다. 도 3은 본 발명에 따른 시각적 특성 인식모델을 나타낸 블록도이다. 도 4는 본 발명에 따른 감성특성 인식모델을 나타낸 블록도이다.
도 1을 참조하면, 본 발명에 따른 대상체 감성 인식 방법을 실행하는 서버(10)는 대상체유형 인식모델(100), 외형특성 인식모델(200), 시각적 특성 인식모델(300), 감성특성 인식모델(400), 제어부(500) 및 데이터베이스(600)를 포함하며, 대상체 감성 인식 방법을 수행할 수 있다.
일 실시 예에서, 대상체유형 인식모델(100), 외형특성 인식모델(200), 시각적 특성 인식모델(300) 및 감성특성 인식모델(400)은 딥러닝 알고리즘과 학습 데이터셋을 통해 미리 기계학습되어 특정 결과 값을 산출할 수 있는 모델일 수 있다.
일 실시 예에서, 제어부(500)는 대상체유형 인식모델(100), 외형특성 인식모델(200), 시각적 특성 인식모델(400), 감성특성 인식모델(300) 및 데이터베이스(600)를 제어하며 각 구성들을 연결하고 각 모델의 결과 값들을 이용하여 특정 내용을 판단할 수 있다. 보다 자세한 내용은 후술한다. 한편, 이하에서 설명되는 본 발명에 대한 모든 동작은 제어부(500)에 의해 수행되거나 또는 제어부(500)의 제어에 의해 수행될 수 있다.
도 2를 참조하면, 외형특성 인식모델(200)은, 대상체 유형별로 상이한 개별특성인식모듈(110)의 조합을 포함한다. 예를 들어, 동일한 대분류 내에 속하는 패션잡화 유형(예를 들어, 신발, 지갑, 가방)은 상이한 외형분류기준을 가지므로, 서버(10)는 대상체 유형별로 개별특성인식모듈(110)의 조합을 생성하여 특정한 대상체 외형 인식을 위한 특화 외형특성인식모델을 생성한다. 물론 이와 달리 개별특성인식모듈 없이 외형특성인식모델 내에 모듈이 하나로 통합될 수도 있다.
도 3을 참조하면, 시각적 특성 인식모델(400)은 복수의 개별외형특성들에서 일부를 선택, 조합 또는 추가 한정 등을 통해 정의되어 대상체의 시각적 속성을 대표할 수 있는 시각적 특성을 결과값으로 산출할 수 있는 모델이다. 즉, 개별외형특성은 대상체의 외형에 관한 모든 특성을 포함하고, 시각적 특성은 후술할 감성적 특성을 부여하기 위한 중간 매개가 되는 개념으로서 개별외형특성을 이용하여 재정의되는 개념이다. 예를 들어, 개별외형특성에 다양한 패턴들이 포함될 경우, 시각적 특성은 체크 패턴만을 포함할 수 있다. 결국, 시각적 특성은 매우 다양한 특성들을 포함하는 개별외형특성들을 모두 활용하기 보다는 일부만을 활용하기 위한 중간 매개가 되는 개념으로써 감성적 특성와 매핑되는 특성이다.
일 실시 예에서, 시각적 특성은 사전에 미리 개별외형특성을 활용하여 설정되거나 백터를 활용한 클러스터링을 통해 설정될 수 있다. 이에 대한 자세한 내용은 후술한다.
일 실시 예에서, 시각적 특성 인식모델(400)은 대상체 유형별로 상이한 개별특성인식모듈(110)의 조합을 포함한다. 예를 들어, 동일한 대분류 내에 속하는 패션잡화 유형(예를 들어, 신발, 지갑, 가방)은 상이한 외형분류기준을 가지므로, 서버(10)는 대상체 유형별로 개별특성인식모듈(110)의 조합을 생성하여 특정한 대상체 시각적 특성 인식을 위한 특화 시각적 특성 인식모델을 생성한다. 물론 이와 달리 개별특성인식모듈 없이 시각적특성 인식모델 내에 모듈이 하나로 통합될 수도 있다.
도 4를 참조하면, 감성특성 인식모델(300)은, 개별외형특성을 입력 받아 제1감성특성을 산출하는 제1감성특성 인식모델(310) 및 제2감성특성을 산출하는 제2감성특성 인식모델(320)을 포함할 수 있다. 예를 들어, 제1감성특성 인식모델(310)은, 시각적 특성에 미리 매핑된 감성적 특성을 기계학습하여 제1 감성특성을 산출하는 모델일 수 있으며, 제2감성특성 인식모델(320)도 동일하게 제2 감성특성을 산출하는 모델일 수 있다. 각 모델의 개수를 2개로 기재한 것은 예시적인 것에 불과하고 필요한 감성적 특성만큼 모델 개수가 추가될 수 있다. 또한, 제1 감성특성 인식모델과 같이 개별 모듈 없이 모델이 구현될 수도 있고, 제2감성특성 인식모델과 같이 개별 모듈들이 포함될 수 있다.
도 5는 본 발명에 따른 대상체 감성 인식 방법을 설명하기 위한 흐름도이다. 도 6 및 도 7은 본 발명에 따른 대상체 감성 인식 방법을 설명하기 위한 예시도이다. 도 5의 동작들은 도 1의 서버(10)를 통해 수행될 수 있다.
도 5 내지 도 7을 참조하면, 일 실시 예에서, 서버(10)는 동작 51에서, 영상데이터를 외형특성 인식모델(200)에 입력하여, 복수의 외형분류기준에 대한 개별외형특성을 산출할 수 있다. 예를 들어, 서버(10)는 외형 특성 분석이 진행되지 않은 신규 입력영상데이터를 외형특성 인식모델(100)에 제공하여, 특정한 대상체의 외형분류기준별로 개별외형특성을 산출할 수 있다.
일 실시예에서, 개별외형특성 산출단계는, 외형특성 인식모델(200) 내의 각각의 개별특성 인식모듈(110)에 입력영상데이터를 입력하여, 상기 입력영상데이터에 대한 복수의 개별외형특성을 산출한다. 이를 통해, 서버(10)는 입력영상데이터에 대한 각 외형분류기준의 개별외형특성을 모두 획득한다.
또한, 일 실시예에서, 개별특성인식모듈(110)은, 복수의 학습용 영상데이터에 대해 특정한 외형분류기준의 개별외형특성을 매칭하여 딥러닝 학습모델을 통해 트레이닝이 된 것이다. 즉, 개별특성인식모듈(110)은 특정한 딥러닝 알고리즘으로 구축되는 것으로, 복수의 외형분류기준 중에서 특정한 하나와 학습용 영상데이터를 매칭하여 학습을 수행한 것이다.
이를 위해, 서버(10)는 다음과 같이 각각의 개별특성인식모듈(110)을 트레이닝하는 과정을 수행할 수 있다.
먼저, 서버(10)는 특정한 대상체에 대한 복수의 학습용 영상데이터를 획득한다. 예를 들어, 대상체가 특정한 의류 유형(예를 들어, 셔츠)인 경우, 서버(10)는 여러 셔츠의 이미지를 획득한다. 서버(10)는 기존에 저장되어 있는 영상데이터 중에서 전문가에 의해 선별될 수도 있고, 학습에 용이한 대상체 이미지를 신규로 획득할 수도 있다.
서버(10)는 각각의 외형분류기준 정의 및 각 외형분류기준에 대한 복수의 개별외형특성을 획득한다. 즉, 서버(10)는 복수의 외형분류기준을 설정함에 따라 개별특성인식모듈(110)의 초기 개수를 설정한다. 그리고, 서버(10)는 각 외형분류기준 내의 복수의 개별외형특성을 설정함에 따라, 각 외형분류기준에 대해 학습용 영상데이터를 레이블링할 특징(feature) 종류를 설정한다.
일 실시예에서 서버(10)는 특정한 대상체 외형 분석에 대한 전문가 클라이언트로부터 특정한 대상체 외형을 분석하기 위한 복수의 외형분류기준 및 각 외형분류기준 내의 복수의 개별외형특성을 설정받을 수 있다. 예를 들어, 의류에 대한 외형특성 인식모델(200)을 구축하는 경우, 서버(10)는 의류 전문가인 디자이너의 클라이언트로부터 외형분류기준 및 이에 포함되는 개별외형특성을 입력받을 수 있다.
그 후, 서버(10)는 학습용 영상데이터를 각 외형분류기준의 복수의 개별외형특성으로 레이블링한다. 즉, 서버(10)는 각각의 학습용 영상데이터에 대해 복수의 외형분류기준별로 적어도 하나의 개별외형특성을 입력받아서 매칭한다. 예를 들어, 특정한 대상체에 대해 10개의 외형분류기준을 설정한 경우, 서버(10)는 해당 대상체를 포함한 각각의 학습용 영상데이터에 대해 10개의 외형분류기준별로 하나의 개별외형특성을 입력받고, 학습용 영상데이터와 10개의 개별유형특성을 매칭한 학습데이터셋을 형성한다.
그 후, 서버(10)는 학습용 영상데이터와 이에 대해 레이블링된 특정한 외형분류기준의 개별외형특성을 매칭하여 트레이닝(Training)을 수행한다. 즉, 서버(10)가, A 외형분류기준에 대한 개별특성인식모듈(110)을 트레이닝하는 경우, 학습데이터셋에서 학습용 영상데이터와 이에 매칭된 A 외형분류기준의 개별외형특성만을 추출하여 딥러닝 학습모델에 입력한다. 이를 통해, 서버(10)는 각각의 외형분류기준의 개별외형특성을 인식할 수 있는 각각의 개별특성인식모듈(110)을 구축한다.
또한, 일 실시예에서, 외형특성 인식모델(200)은, 도 2에 도시된 바와 같이 대상체 유형별로 상이한 개별특성인식모듈(110)의 조합을 포함한다. 예를 들어, 동일한 대분류 내에 속하는 패션잡화 유형(예를 들어, 신발, 지갑, 가방)은 상이한 외형분류기준을 가지므로, 서버(10)는 대상체 유형별로 개별특성인식모듈(110)의 조합을 생성하여 특정한 대상체 외형 인식을 위한 특화 외형특성인식모델을 생성한다.
또한, 일 실시예에서, 복수의 대상체에 대한 각 외형특성 인식모델(100)은 특정한 개별특성인식모듈(110)을 공유하여 사용할 수 있다. 예를 들어, 개별특성인식모듈(110)이 색상 인식을 수행하는 경우, 대상체 유형에 무관하게 동일하게 색상인식모듈은 범용적으로 사용될 수 있으므로, 서버(10)는 대상체별로 구별되는 복수의 외형특성 인식모델(100)에서 범용 색상인식모듈을 사용할 수 있다.
일 실시 예에서, 서버(10)는 동작 52에서, 개별외형특성에 기초하여 설정된 복수의 시각적 특성을 복수의 감성적 특성으로 클러스터링할 수 있다. 예를 들어, 복수의 시각적 특성은 미리 정의될 수 있고, 복수의 감성적 특성도 미리 정의될 수 있으며, 복수의 시각적 특성과 복수의 감성적 특성이 미리 매핑된 테이블이 저장될 수 있으며, 이러한 테이블에 따라 복수의 시각적 특성이 복수의 감성적 특성으로 클러스터링될 수 있다. 예컨대, 개별외형특성이 다양한 패턴들일 경우에 dot 패턴이 시각적 특성으로 정의될 수 있으며, dot 패턴은 감성적 특성 중 러블리에 매핑될 수 있으며, 이러한 매핑 테이블에 따라 산출된 시각적 특성을 특정 감성적 특성 중 어느 하나로 클러스터링할 수 있다.
구체적으로 예를 들어, 복수의 감성적 특성은 내추럴(Natural), 러블리(Lovely), 섹시(Sexy), 빈티지(Vintage), 에스닉(Ethnic), 클래식(Classic), 엘레강스(Elegance), 액티브(Active), 와일드(Wild) 및 시크(Chic)를 포함할 수 있다. 여기서, 감성적 특성은 패션으로 표현된 분위기를 이미지화하고 구체화시킨 개념일 수 있다.
예를 들어, 액티브(Active)는 Sports wear의 기능성과 활동성을 가미한 패션이미지로 건강과 기능성을 중시하며 활동적인 운동감을 표현한 개념일 수 있으며, Poly 소재의 anorak, 기능성 소재의 slim fit, zip-up & hoodie zip-up, 기능성 소재의 slim fit, long T-shirt, Track jacket & sideline colorblock, zipper opening, Solid leggings, Side line colorblock & track pants, Side line color block & banding skirt 등의 시각적 특성이 액티브로 클러스터링될 수 있다.
예를 들어, 시크(Chic)는 도시적인 세련미를 가진 이미지이며 개성 있는 연출과 모던함을 표현하기 위해 심플함을 추구하는 개념일 수 있다. 또한, 상의 Top, Leather & mustang, 팬츠 pants, Leather, 스커트 skirt, Leather 등의 시각적 특성이 시크로 클러스터링될 수 있다.
예를 들어, 클래식(Classic)은 유행의 흐름에 따라 변하지 않고 오랫동안 지속되는 전통적인 느낌의 패션이미지로, 베이직하면서 성숙하고 안정된 느낌일 수 있으며, Check pattern (except gingham check), Double button trench coat, Solid coat & jacket, Solid & pin stripe shirt, 팬츠 pants, Check pattern (except gingham check), Slacks, ankle exposure, 스커트 skirt, Check long skirt (except gingham check), Solid long H-line skirt 등의 시각적 특성이 클래식으로 클러스터링될 수 있다.
예를 들어, 엘레강스(Elegance)는 우아하고 품위있는 이미지를 지향하는 감성의 스타일이며, 드레이프성이 있는 고급스러운 소재를 사용하며, 인체의 곡선미를 강조하여 성숙한 여성미를 표현한 개념일 수 있다. 또한, Silk, No collar, solid wrap blouse, Tweed & pearl, gold deco, No collar, solid chiffon blouse, Silk sukajan jumper, All collar blouse (except shirt collar), 팬츠 pants, Silk slacks, Silk, horts, Tweed, Wide long & maxi slacks, Silk skirt, Lace skirt, Tweed & pearl, gold deco, Mermaid line skirt, See-through skirt, Solid long flare skirt 등의 시각적 특성이 액티브로 클러스터링될 수 있다.
예를 들어, 에스닉(Ethnic)은 각국에서 전해 내려온 민속의상이나 고유한 염색방법, 직물, 자수 등에서 영감을 얻어 현대적인 감각으로 디자인한 스타일이며, 색상톤이 다양하며 깊고 풍부할 수 있다. 또한, Tropical pattern, Bohemian blouse, Ethnic & paisley pattern, Tropical pattern, Ethnic & paisley pattern, Tropical pattern, Ethnic & paisley pattern 등의 시각적 특성이 에스닉으로 클러스터링될 수 있다.
예를 들어, 러블리(Lovely)는 패션이미지 romantic과 유사하지만 조금 더 귀엽고 소녀스러운 이미지이며, 플라워, 도트, 프릴 등 장식적 요소가 강할 수 있다. 또한, Dot pattern, Lace, Flower pattern, Solid teddy bear outer, Gingham check pattern, Solid ruffle sleeve, Solid smocking blouse, Flare short length pants, Check flare short length skirt, Solid flare short length skirt 등의 시각적 특성이 러블리로 클러스터링될 수 있다.
예를 들어, 내추럴(Natural)은 자연의 꾸밈없는 이미지를 말하며, 데님이나 면을 사용해 무난하고 편안한 느낌을 주는 스타일일 수 있다. 또한, Denim, Colorblock pocket, zipper opening fleece jacket, Loose fit, cotton T-shirt, Short & mid length field jacket, Loose fit, cotton hoodie, Solid padding, Baseball jacket & blouson, Knit & cardigan, Cotton, shorts, Knit, Cotton, wide pants, boots cut pants, Jogger pants (no patch pocket), Cotton, long skinny pants, Cotton, single button, Cotton, inner pocket skirt 등의 시각적 특성이 내추럴로 클러스터링될 수 있다.
예를 들어, 섹시(Sexy)는 패션이미지는 아니지만, 빼놓을 수 없는 감성 중 하나. 어깨와 가슴, 배 등을 노출해 성적인 이미지를 주며 타이트한 실루엣으로 이를 극대화시킨 감성일 수 있다. 또한, Crop slim fit, one shoulder & off shoulder, Bra & bikini, Crop slim fit, sleeveless top, Tube top, Stocking, Extra-short length pants, Solid short H-line skirt, Solid short A-line skirt 등의 시각적 특성이 섹시로 클러스터링될 수 있다.
예를 들어, 빈티지(Vintage)는 벼룩시장이나 구제가게에서 고른 오래된 듯한 낡은 스타일이며 'country'와 비슷한 이미지일 수 있다. 또한, Knit stripe & fair isle pattern, Tie-dye pattern 등의 시각적 특성이 빈티지로 클러스터링될 수 있다.
예를 들어, 와일드(Wild)는 격식과 전통에 영향을 받지 않아 대중성은 크지 않으나, 포인트로 매치하기 좋은 감성이며, Military나 Avant-garde한 느낌을 일부 포함할 수 있다. 또한, Long fur, Camouflage pattern, Animal pattern (except spotted pattern), Animal pattern (except spotted pattern), Camouflage pattern, Side out pocket & cargo pants, Side out pocket & cargo skirt 등의 시각적 특성이 와일드로 클러스터링될 수 있다.
일 실시 예에서, 서버(10)는 동작 53에서, 클러스터링 결과에 기반하여 상기 복수의 감성적 특성에 각각 매칭되는 적어도 하나의 시각적 특성에 대응하는 영상데이터를 수집하고, 수집한 영상데이터에 대응하는 출력 값(ground truth)에 복수의 감성적 특성을 매칭하여 학습데이터셋을 구축할 수 있다. 예를 들어, 학습데이터셋에는 결과 값으로 러블리에 매칭되며 dot 패턴에 대응하는 영상데이터가 포함될 수 있으며, 이와 동일하게 여러 시각적 특성에 대응하며 결과 값으로 감성적 특성이 매칭된 영상데이터가 학습데이터셋에 포함될 수 있다.
일 실시 예에서, 서버(10)는 동작 54에서, 학습데이터셋을 기반으로 감성특성 인식모델을 트레이닝할 수 있다. 감성인식모델을 트레이닝하는 방법은 앞서 설명한 외형특성 인식모델을 트레이닝하는 방법과 동일하므로 자세한 설명은 생략한다.
일 실시 예에서, 서버(10)는 동작 55에서, 입력영상데이터를 감성특성 인식모델에 입력하여, 감성특성 인식모델을 통해 입력영상데이터에 포함된 대상체의 감성적 특성을 산출할 수 있다. 여기서 감성적 특성은 확률 값으로 산출될 수 있으며 확률 값의 분포에 따라 적어도 하나 이상의 감성적 특성이 결정될 수 있다. 예를 들어, 입력영상데이터가 도 6에 도시된 이미지일 경우, 대상체는 사진 속 인물이 입고 있는 의류가 될 수 있으며, 대상체의 감성적 특성은 확률 값 분포에 따라 내추럴이 가장 우세하며 빈티지와 액티브도 포함된 것으로 판단할 수 있으며, 다른 감성적 특성들(섹시, 순수, 큐트, 클래식)은 확률 값이 낮으므로 배제될 수 있다. 또한, 예를 들어, 입력영상데이터가 도 7에 도시된 이미지일 경우, 대상체는 사진 속 인물이 입고 있는 의류가 될 수 있으며, 대상체의 감성적 특성은 확률 값 분포에 따라 빈티지가 가장 우세하며 클래식과 큐트도 포함된 것으로 판단할 수 있다.
도 8은 본 발명에 따른 복수의 유형 기반 대상체 감성 인식 방법을 설명하기 위한 흐름도이다. 도 9 내지 도 11은 본 발명에 따른 복수의 유형 기반 대상체 감성 인식 방법을 설명하기 위한 예시도이다. 도 8의 동작들은 도 1의 서버(10)를 통해 수행될 수 있다.
도 8 내지 도 11을 참조하면, 일 실시 예에서, 서버(10)는 동작 81에서, 대상체를 분류기준에 따라 복수의 유형으로 분류할 수 있다. 예를 들어, 대상체가 의류일 경우, 분류기준은 상의(Top), 팬츠(Pants), 스커트(Skirt) 및 드레스(Dress)일 수 있다.
일 실시 예에서, 서버(10)는 동작 82에서, 학습데이터셋 및 복수의 유형에 기반하여 복수의 유형 각각에 대응하는 유형별 감성특성 인식모델을 트레이닝할 수 있다. 유형별 감성특성 인식모델을 트레이닝하는 방법은 외형특성 인식모델을 트레이닝하는 방법과 동일한 방식으로 수행되므로 자세한 설명은 생략한다.
예를 들어, 학습데이터셋에서 각각의 감성적 특성들은 복수의 유형별로 시각적 특성이 매핑될 수 있다.
예를 들어, 액티브(Active)는 상의에서 Poly 소재의 anorak, 기능성 소재의 slim fit, zip-up & hoodie zip-up, 기능성 소재의 slim fit, long T-shirt, Track jacket & sideline colorblock, zipper opening 등의 시각적 특성과 매핑될 수 있으며, 팬츠에서 Solid leggings, Side line colorblock & track pants 등의 시각적 특성과 매핑될 수 있으며, 스커트에서 Side line color block & banding skirt 등의 시각적 특성과 매핑될 수 있다.
예를 들어, 시크는 상의에서 Leather & mustang 등의 시각적 특성과 매핑될 수 있으며, 팬츠에서 Leather 등의 시각적 특성과 매핑될 수 있으며, 스커트에서 Leather 등의 시각적 특성과 매핑될 수 있다.
예를 들어, 클래식은 상의에서 Check pattern (except gingham check), Double button trench coat, Solid coat & jacket, Solid & pin stripe shirt 등의 시각적 특성과 매핑될 수 있으며, 팬츠에서 Check pattern (except gingham check), Slacks, ankle exposure 등의 시각적 특성과 매핑될 수 있으며, 스커트에서 Check long skirt (except gingham check), Solid long H-line skirt 등의 시각적 특성과 매핑될 수 있다.
예를 들어, 엘레강스는 상의에서 Silk, No collar, solid wrap blouse, Tweed & pearl, gold deco, No collar, solid chiffon blouse, Silk sukajan jumper, All collar blouse (except shirt collar) 등의 시각적 특성과 매핑될 수 있으며, 팬츠에서 Silk slacks, Silk shorts, Tweed, Wide long & maxi slacks 등의 시각적 특성과 매핑될 수 있으며, 스커트에서 Silk skirt, Lace skirt, Tweed & pearl, gold deco, Mermaid line skirt, See-through skirt, Solid long flare skirt 등의 시각적 특성과 매핑될 수 있다.
예를 들어 에스닉은 상의에서 Tropical pattern, Bohemian blouse, Ethnic & paisley pattern 등의 시각적 특성과 매핑될 수 있으며, 팬츠에서 Tropical pattern, Ethnic & paisley pattern 등의 시각적 특성과 매핑될 수 있으며, 스커트에서 Tropical pattern, Ethnic & paisley pattern 등의 시각적 특성과 매핑될 수 있다.
예를 들어, 러블리는 상의에서 Dot pattern, Lace, Flower pattern, Solid teddy bear outer, Gingham check pattern, Solid ruffle sleeve, Solid smocking blouse 등의 시각적 특성과 매핑될 수 있으며, 팬츠에서 Dot pattern, Gingham check pattern, Flower pattern, Flare short length pants 등의 시각적 특성과 매핑될 수 있으며, 스커트에서 Dot pattern, Check flare short length skirt, Flower pattern, Solid flare short length skirt, Gingham check pattern 등의 시각적 특성과 매핑될 수 있다.
예를 들어, 내추럴은 상의에서 Denim, Colorblock pocket, zipper opening fleece jacket, Loose fit, cotton T-shirt, Short & mid length field jacket, Loose fit, cotton hoodie, Solid padding, Baseball jacket & blouson, Knit & cardigan 등의 시각적 특성과 매핑될 수 있으며, 팬츠에서 Denim, Cotton, shorts, Knit, Cotton, wide pants, Cotton, boots cut pants, Jogger pants (no patch pocket), Cotton, long skinny pants 등의 시각적 특성과 매핑될 수 있으며, 스커트에서 Denim, Cotton, single button, Knit, Cotton, inner pocket skirt 등의 시각적 특성과 매핑될 수 있다.
예를 들어, 섹시는 상의에서 Crop slim fit, one shoulder & off shoulder, Bra & bikini, Crop slim fit, sleeveless top, Tube top 등의 시각적 특성과 매핑될 수 있으며, 팬츠에서 Stocking, Extra-short length pants 등의 시각적 특성과 매핑될 수 있으며, 스커트에서 Solid short H-line skirt, Solid short A-line skirt 등의 시각적 특성과 매핑될 수 있다.
예를 들어, 빈티지는 상의에서 Knit stripe & fair isle pattern, Tie-dye pattern 등의 시각적 특성과 매핑될 수 있으며, 팬츠에서 Tie-dye pattern 등의 시각적 특성과 매핑될 수 있으며, 스커트에서 Tie-dye pattern 등의 시각적 특성과 매핑될 수 있다.
예를 들어, 와일드는 상의에서 Long fur, Camouflage pattern, Animal pattern (except spotted pattern) 등의 시각적 특성과 매핑될 수 있으며, 팬츠에서 Animal pattern (except spotted pattern), Camouflage pattern, Side out pocket & cargo pants 등의 시각적 특성과 매핑될 수 있다, 스커트에서 Animal pattern (except spotted pattern, Camouflage pattern, Side out pocket & cargo skirt 등의 시각적 특성과 매핑될 수 있다.
일 실시 예에서, 서버(10)는 동작 83에서, 입력영상데이터에 포함된 대상체를 분류기준에 따라 복수의 유형으로 분류할 수 있다. 예를 들어, 서버(10)는 이미지에서 의류를 분할(segmentation)할 수 있으며, 분할한 의류에서 상의와 스커트로 크롭핑(cropping)할 수 있다. 예컨대, 도 9에 도시된 바와 같이 의류를 이미지에서 분할한 뒤 상의와 스커트로 크롭핑할 수 있다. 여기서 분할과 크롭핑은 기 공지된 방식을 이용하여 수행될 수 있다.
일 실시 예에서, 서버(10)는 동작 84에서, 분류 결과에 기반하여 입력영상데이터를 유형별 감성 인식 모델 중 대응하는 감성특성 인식모델에 입력하여, 대응하는 감성특성 인식모델을 통해 입력영상데이터에 포함된 대상체의 감성적 특성을 산출할 수 있다. 예를 들어, 도 9에 도시된 바와 같이 상의의 자켓은 내추럴과 와일드라는 감성적 특성으로 결정될 수 있으며, 스커트는 와일드라는 감성적 특성으로 결정될 수 있다. 또한, 예를 들어, 도 10은 도 6과 달리 의류 전체가 아니라 상의와 팬츠로 분류된 이후에 상의는 클래식이란 감성적 특성을 산출할 수 있고, 팬츠는 내추럴이란 감성적 특성을 산출할 수 있다.
도 12는 본 발명에 따른 복수의 유형 조합 기반 대상체 감성 인식 방법을 설명하기 위한 흐름도이다. 도 13은 본 발명에 따른 복수의 유형 조합 기반 대상체 감성 인식 방법을 설명하기 위한 예시도이다. 도 12의 동작들은 도 1의 서버(10)를 통해 수행될 수 있다.
도 12 및 도 13을 참조하면, 일 실시 예에서, 서버(10)는 동작 121에서, 복수의 유형별로 대상체에서 복수의 감성적 특성을 산출할 수 있으며, 동작 122에서, 복수의 감성적 특성 중 적어도 2개 이상을 조합하여 새로운 감성적 특성을 산출할 수 있다. 예를 들어, 도 13에 도시된 바와 같이, 상의는 섹시로 감성적 특성이 분류될 수 있으며, 팬츠는 액티브로 감성적 특성이 분류될 수 있으며, 이에 기반하여 섹시티브(sexytive)라는 새로운 감성적 특성을 도출할 수 있다. 여기서, 섹시티브를 도출하는 내용은 감성적 특성 인식모델을 통해 수행되거나 제어부(500)라는 별도의 모듈을 통해 수행될 수 있다.
도 14은 본 발명에 따른 시각적 특성 인식모델과 감성 인식 모델을 활용한 대상체 감성 인식 방법을 설명하기 위한 흐름도이다. 도 14의 동작들은 도 1의 서버(10)를 통해 수행될 수 있다.
도 14의 실시 예는 도 5의 실시 예와 다르게 시각적 특성을 인식하는 별도의 학습모델을 도입한 경우이다.
도 14를 참조하면, 일 실시 예에서, 서버(10)는 동작 141에서, 복수의 외형분류기준에 대한 개별외형특성에 기초하여 설정된 복수의 시각적 특성에 대응하는 제1 영상데이터를 수집하고, 상기 수집한 제1 영상데이터에 대응하는 출력 값(ground truth)에 복수의 시각적 특성을 매칭하여 제1 학습데이터셋을 구축할 수 있다. 예를 들어, 제1 학습데이터셋은 dot 패턴이 포함된 의류에서 시각적 특성을 dot 패턴을 출력 값으로 설정한 학습데이터 등을 포함할 수 있다.
일 실시 예에서, 서버(10)는 동작 142에서, 제1 학습데이터셋을 기반으로 시각적 특성 인식모델을 트레이닝할 수 있다. 시각적 특성 인식 모델을 트레이닝하는 방법은 외형특성 인식모델을 트레이닝하는 방법과 동일한 방식으로 수행되므로 자세한 설명은 생략한다.
일 실시 예에서, 서버(10)는 동작 143에서, 복수의 시각적 특성들을 복수의 감성적 특성으로 클러스터링할 수 있다. 동작 143은 동작 52와 동일하므로 자세한 설명은 생략한다.
일 실시 예에서, 서버(10)는 동작 144에서, 클러스터링 결과에 기반하여 상기 복수의 감성적 특성에 매칭되는 적어도 하나의 시각적 특성에 대응하는 제2 영상데이터를 수집하고, 상기 수집한 제2 영상데이터에 대응하는 출력 값(ground truth)에 상기 복수의 감성적 특성을 매칭하여 제2 학습데이터셋을 구축할 수 있다.
일 실시 예에서, 서버(10)는 동작 145에서, 제2 학습데이터셋을 기반으로 감성특성 인식모델을 트레이닝할 수 있다.
일 실시 예에서, 서버(10)는 동작 146에서, 입력영상데이터를 시각적 특성 인식모델에 입력하여, 시각적 특성을 산출할 수 있다. 예를 들어, dot 패턴이 포함된 의류에서 dot 패턴을 시각적 특성으로 산출할 수 있다.
일 실시 예에서, 서버(10)는 동작 147에서, 산출한 시각적 특성을 상기 감성특성 인식모델에 입력하여, 입력영상데이터에 포함된 대상체의 감성적 특성을 산출할 수 있다. 예를 들어, dot 패턴을 러블리라는 감성적 특성으로 매칭할 수 있다.
도 15는 본 발명에 따른 복수의 클러스터를 활용한 대상체 감성 인식 방법을 설명하기 위한 흐름도이다. 도 15의 동작들은 도 1의 서버(10)를 통해 수행될 수 있다.
도 15를 참조하면, 일 실시 예에서, 서버(10)는 동작 151에서, 복수의 영상데이터 각각에 대응하는 적어도 하나의 개별외형특성을 벡터화하여 복수의 N차원 벡터를 산출할 수 있다. 예를 들어, 개별외형특성은 팔 길이, 카라 형태 등 대상체를 특정할 수 있는 모든 특성을 포함할 수 있으며, 이러한 특성들이 총 N개라고 할 때 각각의 영상데이터에 포함된 대상체 별로 N차원 벡터가 산출될 수 있다.
일 실시 예에서, 서버(10)는 동작 152에서, 복수의 N차원 벡터를 N차원 공간에 배치할 수 있으며, 동작 153에서, 배치 결과에 기반하여 복수의 클러스터를 결정할 수 있다. 예를 들어, N차원 공간 상의 각 지점에 대상체들의 N차원 벡터들을 배치한 결과를 토대로 군집을 나눌 수 있고, 각 군집에 식별 정보를 부여할 수 있다. 여기서 식별 정보는 감성적 특성 또는 군집을 구별하기 위한 식별 값을 포함할 수 있다.
일 실시 예에서, 서버(10)는 동작 154에서, 복수의 클러스터 각각에 포함된 적어도 하나의 영상데이터를 상기 복수의 클러스터의 해당 클러스터의 식별 정보에 각각 매핑(mapping)하여 학습데이터셋을 구축할 수 있으며, 동작 155에서, 학습데이터셋을 기반으로 감성특성 인식모델을 트레이닝할 수 있다.
일 실시 예에서, 서버(10)는 동작 156에서, 입력영상데이터를 감성특성 인식모델에 입력하여, 복수의 클러스터 각각에 포함될 확률을 산출할 수 있다. 예를 들어, 클러스터의 식별 정보가 감성적 특성일 경우에 복수의 클러스터 각각에 포함될 확률은 감성적 특성일 확률과 동일할 수 있다. 또한, 복수의 클러스터는 감성적 특성으로만 한정되지는 않으므로 복수의 클러스터 각각이 외형특성에 따른 특정 이미지 군을 대표할 수 있다. 즉, 특정 클러스터가 N차원 공간에서 터틀넥이 구비된 의류를 포함하는 이미지들이 대부분 포함될 경우, 입력영상데이터에 터틀넥이 구비된 의류가 포함될 경우에 상기 특정 클러스터에 포함될 수 있다.
일 실시 예에서, 서버(10)는 동작 157에서, 복수의 클러스터를 복수의 감성적 특성에 각각 매핑할 수 있다. 예를 들어, 동작 157은 복수의 클러스터의 식별정보가 감성적 특성에 매칭되는 것이 아니라 단지 식별값만 포함할 경우에 별도로 서버(10)가 복수의 클러스터를 복수의 감성적 특성에 매핑할 수 있다. 따라서, 동작 157은 이미 식별정보에 감성적 특성이 포함될 경우에 생략될 수도 있다.
일 실시 예에서, 서버(10)는 동작 158에서, 매핑 결과 및 복수의 클러스터 각각에 포함될 확률에 기반하여 입력영상데이터의 감성적 특성을 판단할 수 있다. 예를 들어, 특정 클러스터를 액티브로 매핑할 경우에 특정 클러스터로 입력영상데이터가 포함될 경우, 감성적 특성을 액티브로 판단할 수 있다.
한편, 도면에는 도시되지 않았지만, 서버(10)는 각국 특성과 언어를 추가로 고려하여 감성적 특성을 산출할 수 있다. 즉, 서버(10)는 각각의 클러스터의 식별정보와 감성적 특성간 매핑 테이블을 각 국가 또는 지역별로 다르게 설정할 수 있으며, 이러한 설정을 통해 국가 별로 동일한 대상체에 대해 인식하는 감성을 다르게 적용할 수 있다. 따라서, 상기 식별정보와 감성적 특성간 매핑 테이블에 국가/지역별 코드를 추가하여 매핑 테이블을 변경할 수 있다.
도 16은 본 발명에 따른 복수의 클러스터에 포함된 확률에 따라 대상체의 클러스터 포함 여부를 판단하는 방법을 설명하기 위한 흐름도이다. 도 16의 동작들은 도 1의 서버(10)를 통해 수행될 수 있다.
도 16을 참조하면, 일 실시 예에서, 서버(10)는 동작 161에서, 복수의 클러스터 각각에 포함될 확률을 서로 비교할 수 있다. 예를 들어, 특정 영상은 하나의 클러스터에만 포함되지 않고 여러 개의 클러스터에 중복 포함될 수 있다.
일 실시 예에서, 서버(10)는 동작 162에서, 비교 결과, 상기 특정 영상이 상기 복수의 클러스터 중 특정 클러스터에 포함될 확률이 제1 임계 값보다 높거나, 또는 상기 복수의 클러스터 중 다른 클러스터에 포함될 확률에 비하여 제2 임계 값보다 높은 경우에, 상기 입력영상데이터가 특정 클러스터에 포함된 것으로 판단할 수 있다. 예를 들어, 특정 영상은 여러 개의 클러스터에 포함될 수 있으며, 이러할 경우 모든 클러스터가 상기 특정 영상에 매핑하는 것은 데이터의 관리측면에서 비효율적이므로 제1 임계값이라는 절대적인 수치를 설정하거나 제2 임계값이라는 상대적인 수치를 설정할 수 있다. 예를 들어, 확률 값이 제1 임계 값인 0.5 이상일 경우에는 영상데이터는 해당 클러스터에 포함되는 것으로 판단할 수 있으며, 또한 이와 달리 복수의 클러스터에 포함될 경우에 어느 한 클러스터가 다른 클러스터에 비하여 확률값이 제2 임계값인 0.3 이상 차이날 경우에는 영상데이터는 어느 한 클러스터에 포함된 것으로 판단할 수 있다.
일 실시 예에서, 서버(10)는 동작 163에서, 비교 결과, 상기 입력영상데이터가 상기 복수의 클러스터 중 어느 하나의 클러스터에 포함될 확률과 다른 하나의 클러스터에 포함될 확률간 차이가 제3 임계값보다 작을 경우에 서버가 제4 임계 값보다 높은 확률을 가지는 적어도 하나의 클러스터에 입력영상데이터가 포함된 것으로 판단할 수 있다. 예를 들어, 입력 영상이 제1 클러스터와 제2 클러스터에 포함될 확률이 각각 0.6과 0.65이고 제3 임계 값은 0.1이고 제4 임계 값은 0.3일 경우에 해당 입력 영상은 제1 클러스터와 제2 클러스터 모두에 포함된다고 판단할 수 있다. 제3 임계 값은 서로 상대적인 차이에 따라 각 클러스터에 모두 포함될 지 아니면 어느 한 클러스터에만 포함될 지를 판단하는 기준이 될 수 있으며, 제4 임계 값은 확률 값이 너무 낮은 경우를 배제하는 기준이 될 수 있다. 즉, 어느 한 입력 영상이 제3 클러스터와 제4 클러스터에 각각 포함될 확률이 2.3과 2.7이어서 제3 임계 값은 만족하더라도 제4 임계 값을 만족하지 못하므로 어느 한 입력 영상은 제3 클러스터와 제4 클러스터에 포함되지 않는 것으로 판단할 수 있다. 즉, 확률 값이 매우 낮을 경우에는 해당 클러스터에 포함되지 않는 것으로 봄이 합리적이기 때문이다.
일 실시 예에서, 서버(10)는 동작 164에서, 비교 결과, 상기 입력영상데이터가 상기 복수의 클러스터 각각에 포함될 확률이 모두 제4 임계 값보다 작은 경우에, 상기 입력영상데이터가 상기 복수의 클러스터에 포함되지 않은 것으로 판단하고, 상기 판단된 결과에 따라 상기 입력영상데이터를 신규 클러스터로 분류할 수 있다. 앞서 설명한 바와 같이 제4 임계 값보다 낮을 경우에는 해당 클러스터로 분류하는 것이 적절하지 않으므로 신규 클러스터로 분류할 수 있다.
도 17은 본 발명에 따른 복수의 클러스터 및 감성특성 인식모델을 활용한 대상체 감성 인식 방법을 설명하기 위한 흐름도이다. 도 17의 동작들은 도 1의 서버(10)를 통해 수행될 수 있다. 도 17은 도 15의 복수의 클러스터 결정하는 방식과 감성적 특성 인식모델을 결합한 실시 예일 수 있다.
도 17을 참조하면, 일 실시 예에서, 서버(10)는 동작 171에서, 영상데이터를 외형특성 인식모델에 입력하여, 복수의 외형분류기준에 대한 개별외형특성을 산출할 수 있다.
일 실시 예에서, 서버(10)는 동작 172에서, 개별외형특성에 기초하여 설정된 복수의 시각적 특성들에 기반하여 상기 영상데이터를 클러스터링할 수 있다. 여기서 클러스터링은 도 15의 N차원 벡터와 공간을 활용하여 클러스터들을 결정하는 방식과 유사하게 수행될 수 있다. 예를 들어, 시각적 특성 중 dot 패턴의 경우, dot 패턴을 동일하게 가지는 의류들을 하나의 클러스터로 클러스터링할 수 있다.
일 실시 예에서, 서버(10)는 동작 173에서, 클러스터링에 기반하여 복수의 클러스터를 결정할 수 있다. 예를 들어, dot 패턴을 동일하게 가지는 의류들을 하나의 클러스터로 결정할 수 있으며, 해당 클러스터의 식별 값을 dot 패턴으로 결정할 수 있다.
일 실시 예에서, 서버(10)는 동작 174에서, 복수의 클러스터 각각에 포함된 적어도 하나의 영상데이터를 대응하는 클러스터의 식별 정보에 매핑하여 학습데이터셋을 구축할 수 있으며, 동작 175에서, 학습데이터셋을 기반으로 감성특성 인식모델을 트레이닝할 수 있다. 즉, 시각적 특성에 기초하여 클러스터링된 복수의 클러스터를 활용하여 감성 특성 인식모델을 트레이닝할 수 있다.
일 실시 예에서, 서버(10)는 동작 176에서, 입력영상데이터를 상기 감성특성 인식모델에 입력하여, 상기 복수의 클러스터 각각에 포함될 확률을 산출할 수 있다. 산출 결과는 앞서 설명한 바와 같이 확률 값으로 여러 감성적 특성들이 산출될 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims (18)

  1. 서버에 의해 수행되는, 딥러닝 기반 대상체 감성 인식 방법에 있어서,
    영상데이터를 외형특성 인식모델에 입력하여, 복수의 외형분류기준에 대한 개별외형특성을 산출하는 단계;
    상기 개별외형특성에 기초하여 설정된 복수의 시각적 특성들을 복수의 감성적 특성으로 클러스터링하는 단계;
    상기 클러스터링된 결과에 기반하여 상기 복수의 감성적 특성에 각각 매칭되는 적어도 하나의 시각적 특성에 대응하는 영상데이터를 수집하는 단계;
    상기 수집된 영상데이터에 대응하는 출력 값(ground truth)에 상기 복수의 감성적 특성을 매칭하여 학습데이터셋을 구축하는 단계;
    상기 학습데이터셋을 기반으로 감성특성 인식모델을 트레이닝하는 단계; 및
    입력영상데이터를 상기 감성특성 인식모델에 입력하여, 상기 감성특성 인식모델을 통해 상기 입력영상데이터에 포함된 대상체의 감성적 특성을 산출하는 단계;를 포함하는, 딥러닝 기반 대상체 감성 인식 방법.
  2. 제1 항에 있어서,
    상기 대상체를 분류기준에 따라 복수의 유형으로 분류하는 단계;
    상기 학습데이터셋 및 상기 복수의 유형에 기반하여 상기 복수의 유형 각각에 대응하는 유형별 감성특성 인식모델을 트레이닝하는 단계;
    입력영상데이터에 포함된 대상체를 상기 분류기준에 따라 복수의 유형으로 분류하는 단계; 및
    상기 분류된 결과에 기반하여 상기 입력영상데이터를 상기 유형별 감성 인식 모델 중 해당 감성특성 인식모델에 입력하여, 상기 해당 감성특성 인식모델을 통해 상기 입력영상데이터에 포함된 대상체의 감성적 특성을 산출하는 단계;를 더 포함하는, 딥러닝 기반 대상체 감성 인식 방법.
  3. 제2 항에 있어서,
    상기 복수의 유형별로 상기 대상체에서 복수의 감성적 특성을 산출하는 단계; 및
    상기 복수의 감성적 특성 중 적어도 2개 이상을 조합하여 새로운 감성적 특성을 산출하는 단계;를 더 포함하는, 딥러닝 기반 대상체 감성 인식 방법.
  4. 제1 항에 있어서,
    상기 복수의 시각적 특성에 대응하는 제1 영상데이터를 수집하는 단계;
    상기 제1 영상데이터에 대응하는 출력 값(ground truth)에 상기 복수의 시각적 특성을 매칭하여 제1 학습데이터셋을 구축하는 단계;
    상기 제1 학습데이터셋을 기반으로 시각적 특성 인식모델을 트레이닝하는 단계;
    상기 복수의 시각적 특성들을 복수의 감성적 특성으로 클러스터링하는 단계;
    상기 클러스터링된 결과에 기반하여 상기 복수의 감성적 특성에 매칭되는 적어도 하나의 시각적 특성에 대응하는 제2 영상데이터를 수집하는 단계;
    상기 제2 영상데이터에 대응하는 출력 값(ground truth)에 상기 복수의 감성적 특성을 매칭하여 제2 학습데이터셋을 구축하는 단계;
    상기 제2 학습데이터셋을 기반으로 상기 감성특성 인식모델을 트레이닝하는 단계;
    입력영상데이터를 상기 시각적 특성 인식모델에 입력하여, 시각적 특성을 산출하는 단계; 및
    상기 산출된 시각적 특성을 상기 감성특성 인식모델에 입력하여, 상기 입력영상데이터에 포함된 대상체의 감성적 특성을 산출하는 단계;를 더 포함하는, 딥러닝 기반 대상체 감성 인식 방법.
  5. 제1 항에 있어서,
    상기 개별외형특성에 기초하여 설정된 복수의 시각적 특성들에 기반하여 상기 영상데이터를 클러스터링하는 단계;
    상기 클러스터링에 기반하여 복수의 클러스터를 결정하는 단계;
    상기 복수의 클러스터 각각에 포함된 적어도 하나의 영상데이터를 대응하는 클러스터의 식별 정보에 매핑하여 학습데이터셋을 구축하는 단계;
    상기 학습데이터셋을 기반으로 감성특성 인식모델을 트레이닝하는 단계; 및
    입력영상데이터를 상기 감성특성 인식모델에 입력하여, 상기 복수의 클러스터 각각에 포함될 확률을 산출하는 단계;를 더 포함하는, 딥러닝 기반 대상체 감성 인식 방법.
  6. 서버에 의해 수행되는, 딥러닝 기반 대상체 감성 인식 방법에 있어서,
    복수의 영상데이터 각각에 대응하는 적어도 하나의 개별외형특성을 벡터화하여 복수의 N차원 벡터를 산출하는 단계;
    상기 복수의 N차원 벡터를 N차원 공간에 배치하는 단계;
    상기 배치된 결과에 기반하여 복수의 클러스터를 결정하는 단계;
    상기 복수의 클러스터 각각에 포함된 적어도 하나의 영상데이터를 상기 복수의 클러스터의 해당 클러스터의 식별 정보에 각각 매핑(mapping)하여 학습데이터셋을 구축하는 단계;
    상기 학습데이터셋을 기반으로 감성특성 인식모델을 트레이닝하는 단계; 및
    입력영상데이터를 상기 감성특성 인식모델에 입력하여, 상기 입력영상데이터가 상기 복수의 클러스터 각각에 포함될 확률을 산출하는 단계;를 포함하는, 딥러닝 기반 대상체 감성 인식 방법.
  7. 제6 항에 있어서,
    상기 복수의 클러스터를 복수의 감성적 특성에 각각 매핑하는 단계; 및
    상기 매핑된 결과 및 상기 복수의 클러스터 각각에 포함될 확률에 기반하여 상기 입력영상데이터의 감성적 특성을 판단하는 단계;를 더 포함하는, 딥러닝 기반 대상체 감성 인식 방법.
  8. 제6 항에 있어서,
    상기 산출된 결과, 상기 입력영상데이터가 상기 복수의 클러스터 중 특정 클러스터에 포함될 확률이 제1 임계 값보다 높거나 또는 상기 복수의 클러스터 중 다른 클러스터에 포함될 확률에 비하여 제2 임계 값보다 높은 경우에, 상기 입력영상데이터가 상기 특정 클러스터에 포함된 것으로 판단하는 단계; 및
    상기 산출된 결과, 상기 입력영상데이터가 상기 복수의 클러스터 중 어느 하나의 클러스터에 포함될 확률과 다른 하나의 클러스터에 포함될 확률간 차이가 제3 임계값보다 작을 경우에, 상기 복수의 클러스터 중 제4 임계 값보다 높은 확률을 가지는 적어도 하나의 클러스터에 상기 입력영상데이터가 포함된 것으로 판단하는 단계;를 더 포함하는, 딥러닝 기반 대상체 감성 인식 방법.
  9. 제8 항에 있어서,
    상기 산출된 결과, 상기 입력영상데이터가 상기 복수의 클러스터 각각에 포함될 확률이 모두 제4 임계 값보다 작은 경우에, 상기 입력영상데이터가 상기 복수의 클러스터에 포함되지 않은 것으로 판단하는 단계; 및
    상기 판단된 결과에 따라, 상기 입력영상데이터를 신규 클러스터로 분류하는 단계;를 더 포함하는, 딥러닝 기반 대상체 감성 인식 방법.
  10. 딥러닝 기반의 대상체의 감성 인식 방법을 제공하기 위한 장치에 있어서,
    상기 딥러닝 기반의 대상체의 감성 인식과 관련된 복수의 모델; 및
    영상데이터를 상기 복수의 모델 중 외형특성 인식모델에 입력하여, 복수의 외형분류기준에 대한 개별외형특성을 산출하고,
    상기 개별외형특성에 기초하여 설정된 복수의 시각적 특성들을 복수의 감성적 특성으로 클러스터링하고,
    상기 클러스터링된 결과에 기반하여 상기 복수의 감성적 특성에 각각 매칭되는 적어도 하나의 시각적 특성에 대응하는 영상데이터를 수집하고,
    상기 수집된 영상데이터에 대응하는 출력 값(ground truth)에 상기 복수의 감성적 특성을 매칭하여 학습데이터셋을 구축하고,
    상기 학습데이터셋을 기반으로 상기 복수의 모델 중 감성특성 인식모델을 트레이닝하며, 그리고
    입력영상데이터를 상기 감성특성 인식모델에 입력하여, 상기 감성특성 인식모델을 통해 상기 입력영상데이터에 포함된 대상체의 감성적 특성을 산출하는 제어부;를 포함하는, 딥러닝 기반 대상체 감성 인식 장치.
  11. 제10 항에 있어서,
    상기 제어부는,
    상기 대상체를 분류기준에 따라 복수의 유형으로 분류하고,
    상기 학습데이터셋 및 상기 복수의 유형에 기반하여 상기 복수의 유형 각각에 대응하는 유형별 감성특성 인식모델을 트레이닝하고,
    입력영상데이터에 포함된 대상체를 상기 분류기준에 따라 복수의 유형으로 분류하며, 그리고
    상기 분류된 결과에 기반하여 상기 입력영상데이터를 상기 유형별 감성 인식 모델 중 해당 감성특성 인식모델에 입력하여, 상기 해당 감성특성 인식모델을 통해 상기 입력영상데이터에 포함된 대상체의 감성적 특성을 산출하는, 딥러닝 기반 대상체 감성 인식 장치.
  12. 제11 항에 있어서,
    상기 제어부는,
    상기 복수의 유형별로 상기 대상체에서 복수의 감성적 특성을 산출하며, 그리고
    상기 복수의 감성적 특성 중 적어도 2개 이상을 조합하여 새로운 감성적 특성을 산출하는, 딥러닝 기반 대상체 감성 인식 장치.
  13. 제10 항에 있어서,
    상기 제어부는,
    상기 복수의 시각적 특성에 대응하는 제1 영상데이터를 수집하고,
    상기 제1 영상데이터에 대응하는 출력 값(ground truth)에 상기 복수의 시각적 특성을 매칭하여 제1 학습데이터셋을 구축하고,
    상기 제1 학습데이터셋을 기반으로 상기 복수의 모델 중 시각적 특성 인식모델을 트레이닝하고,
    상기 복수의 시각적 특성들을 복수의 감성적 특성으로 클러스터링하고,
    상기 클러스터링된 결과에 기반하여 상기 복수의 감성적 특성에 매칭되는 적어도 하나의 시각적 특성에 대응하는 제2 영상데이터를 수집하고,
    상기 제2 영상데이터에 대응하는 출력 값(ground truth)에 상기 복수의 감성적 특성을 매칭하여 제2 학습데이터셋을 구축하고,
    상기 제2 학습데이터셋을 기반으로 상기 감성특성 인식모델을 트레이닝하고,
    입력영상데이터를 상기 시각적 특성 인식모델에 입력하여, 시각적 특성을 산출하며, 그리고
    상기 산출된 시각적 특성을 상기 감성특성 인식모델에 입력하여, 상기 입력영상데이터에 포함된 대상체의 감성적 특성을 산출하는, 딥러닝 기반 대상체 감성 인식 장치.
  14. 제10 항에 있어서,
    상기 제어부는,
    상기 개별외형특성에 기초하여 설정된 복수의 시각적 특성들에 기반하여 상기 영상데이터를 클러스터링하고,
    상기 클러스터링에 기반하여 복수의 클러스터를 결정하고,
    상기 복수의 클러스터 각각에 포함된 적어도 하나의 영상데이터를 대응하는 클러스터의 식별 정보에 매핑하여 학습데이터셋을 구축하고,
    상기 학습데이터셋을 기반으로 상기 감성특성 인식모델을 트레이닝하고,
    입력영상데이터를 상기 감성특성 인식모델에 입력하여, 상기 복수의 클러스터 각각에 포함될 확률을 산출하는, 딥러닝 기반 대상체 감성 인식 장치.
  15. 제10 항에 있어서,
    상기 제어부는,
    복수의 영상데이터 각각에 대응하는 적어도 하나의 개별외형특성을 벡터화하여 복수의 N차원 벡터를 산출하고,
    상기 복수의 N차원 벡터를 N차원 공간에 배치하고,
    상기 배치된 결과에 기반하여 복수의 클러스터를 결정하고,
    상기 복수의 클러스터 각각에 포함된 적어도 하나의 영상데이터를 상기 복수의 클러스터의 해당 클러스터의 식별 정보에 각각 매핑(mapping)하여 학습데이터셋을 구축하고,
    상기 학습데이터셋을 기반으로 상기 감성특성 인식모델을 트레이닝하며, 그리고
    입력영상데이터를 상기 감성특성 인식모델에 입력하여, 상기 입력영상데이터가 상기 복수의 클러스터 각각에 포함될 확률을 산출하는, 딥러닝 기반 대상체 감성 인식 장치.
  16. 제15 항에 있어서,
    상기 제어부는,
    상기 복수의 클러스터를 복수의 감성적 특성에 각각 매핑하며, 그리고
    상기 매핑된 결과 및 상기 복수의 클러스터 각각에 포함될 확률에 기반하여 상기 입력영상데이터의 감성적 특성을 판단하는, 딥러닝 기반 대상체 감성 인식 장치.
  17. 제15 항에 있어서,
    상기 제어부는,
    상기 산출된 결과, 상기 입력영상데이터가 상기 복수의 클러스터 중 특정 클러스터에 포함될 확률이 제1 임계 값보다 높거나 또는 상기 복수의 클러스터 중 다른 클러스터에 포함될 확률에 비하여 제2 임계 값보다 높은 경우에, 상기 입력영상데이터가 상기 특정 클러스터에 포함된 것으로 판단하며, 그리고
    상기 산출된 결과, 상기 입력영상데이터가 상기 복수의 클러스터 중 어느 하나의 클러스터에 포함될 확률과 다른 하나의 클러스터에 포함될 확률간 차이가 제3 임계값보다 작을 경우에, 상기 복수의 클러스터 중 제4 임계 값보다 높은 확률을 가지는 적어도 하나의 클러스터에 상기 입력영상데이터가 포함된 것으로 판단하는, 딥러닝 기반 대상체 감성 인식 장치.
  18. 제17 항에 있어서,
    상기 제어부는,
    상기 산출된 결과, 상기 입력영상데이터가 상기 복수의 클러스터 각각에 포함될 확률이 모두 제4 임계 값보다 작은 경우에, 상기 입력영상데이터가 상기 복수의 클러스터에 포함되지 않은 것으로 판단하며, 그리고
    상기 판단된 결과에 따라, 상기 입력영상데이터를 신규 클러스터로 분류하는, 딥러닝 기반 대상체 감성 인식 장치.
PCT/KR2021/006002 2020-05-13 2021-05-13 딥러닝 기반 대상체 감성 인식 방법 및 장치 WO2021230675A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2020-0057340 2020-05-13
KR20200057340 2020-05-13
KR10-2020-0122962 2020-09-23
KR1020200122962A KR20210139119A (ko) 2020-05-13 2020-09-23 딥러닝 기반 대상체 감성 인식 방법, 장치 및 프로그램

Publications (1)

Publication Number Publication Date
WO2021230675A1 true WO2021230675A1 (ko) 2021-11-18

Family

ID=78524611

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/006002 WO2021230675A1 (ko) 2020-05-13 2021-05-13 딥러닝 기반 대상체 감성 인식 방법 및 장치

Country Status (1)

Country Link
WO (1) WO2021230675A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080099099A (ko) * 2007-05-07 2008-11-12 건국대학교 산학협력단 감성기반 직물 인덱싱 자동화 시스템
US20150254532A1 (en) * 2014-03-07 2015-09-10 Qualcomm Incorporated Photo management
US20170011291A1 (en) * 2015-07-07 2017-01-12 Adobe Systems Incorporated Finding semantic parts in images
KR20180037593A (ko) * 2016-10-04 2018-04-12 엑시스 에이비 뉴럴 네트워크들에 트레이닝 데이터를 제공하기 위한 이미지 분석 알고리즘들을 사용하는 장치 및 방법
KR20190103098A (ko) * 2019-08-16 2019-09-04 엘지전자 주식회사 의류 코디 정보 추천 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080099099A (ko) * 2007-05-07 2008-11-12 건국대학교 산학협력단 감성기반 직물 인덱싱 자동화 시스템
US20150254532A1 (en) * 2014-03-07 2015-09-10 Qualcomm Incorporated Photo management
US20170011291A1 (en) * 2015-07-07 2017-01-12 Adobe Systems Incorporated Finding semantic parts in images
KR20180037593A (ko) * 2016-10-04 2018-04-12 엑시스 에이비 뉴럴 네트워크들에 트레이닝 데이터를 제공하기 위한 이미지 분석 알고리즘들을 사용하는 장치 및 방법
KR20190103098A (ko) * 2019-08-16 2019-09-04 엘지전자 주식회사 의류 코디 정보 추천 방법 및 장치

Similar Documents

Publication Publication Date Title
Hidayati et al. Learning and recognition of clothing genres from full-body images
Yamaguchi et al. Paper doll parsing: Retrieving similar styles to parse clothing items
Liu et al. Fashion parsing with weak color-category labels
CN108109055B (zh) 一种基于图像渲染的跨场景服装检索方法
CN106055893B (zh) 基于时尚模板库和自动匹配的服装搭配方案生成方法
US20150036883A1 (en) System and method for identifying a particular human in images using an artificial image composite or avatar
KR102115574B1 (ko) 대상체 디자인 커스터마이징 방법, 장치 및 프로그램
CN112001353B (zh) 一种基于多任务联合监督学习的行人再识别方法
CN106156297A (zh) 服饰推荐方法及装置
WO2019237721A1 (zh) 一种服装尺寸数据识别方法、装置和用户终端
CN109614508A (zh) 一种基于深度学习的服装图像搜索方法
US20200117890A1 (en) Method for evaluating fashion style using deep learning technology and system therefor
CN110276360B (zh) 生成服饰搭配方案的计算机装置、设备、存储介质及方法
Tadjimatova LINGUISTIC FEATURES OF THE WORDS RELATED TO FASHION IN ENGLISH AND UZBEK
CN105812754A (zh) 一种试装方法以及试装装置
CN110598017A (zh) 一种基于自学习的商品详情页的生成方法
US20200143454A1 (en) Computer vision based methods and systems of universal fashion ontology fashion rating and recommendation
CN109215091A (zh) 一种基于图表示的服装流行色彩自动提取方法
CN116189311B (zh) 一种防护服穿戴标准化流程监测系统
WO2021230675A1 (ko) 딥러닝 기반 대상체 감성 인식 방법 및 장치
KR20210139119A (ko) 딥러닝 기반 대상체 감성 인식 방법, 장치 및 프로그램
CN111126179A (zh) 信息的获取方法和装置、存储介质和电子装置
Lasserre et al. Studio2shop: from studio photo shoots to fashion articles
CN110413818B (zh) 贴纸推荐方法、装置、计算机可读存储介质和计算机设备
KR102707741B1 (ko) 사용자 개인 의류 사진을 이용한 패션 코디 추천 시스템 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21804055

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 110423)

122 Ep: pct application non-entry in european phase

Ref document number: 21804055

Country of ref document: EP

Kind code of ref document: A1