KR20230061161A - Fashion simulation device and method - Google Patents

Fashion simulation device and method Download PDF

Info

Publication number
KR20230061161A
KR20230061161A KR1020210146116A KR20210146116A KR20230061161A KR 20230061161 A KR20230061161 A KR 20230061161A KR 1020210146116 A KR1020210146116 A KR 1020210146116A KR 20210146116 A KR20210146116 A KR 20210146116A KR 20230061161 A KR20230061161 A KR 20230061161A
Authority
KR
South Korea
Prior art keywords
image
pose
style
feature map
generating
Prior art date
Application number
KR1020210146116A
Other languages
Korean (ko)
Inventor
박형준
박희철
이상원
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020210146116A priority Critical patent/KR20230061161A/en
Publication of KR20230061161A publication Critical patent/KR20230061161A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/262Analysis of motion using transform domain methods, e.g. Fourier domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2024Style variation

Abstract

패션 시뮬레이션 장치가 개시된다. 본 발명에 따른 패션 시뮬레이션 장치는, 원본 이미지, 원본 포즈 정보 및 타겟 포즈 정보를 이용하여, 이미지 특징 및 공간 특징을 포함하는 특징 맵을 추출하는 인코더, 상기 특징 맵을 이용하여 포즈 변환 이미지를 생성하는 디코더, 상기 원본 이미지로부터 스타일 코드를 추출하고, 상기 스타일 코드 및 상기 특징 맵을 이용하여 스타일 강화 이미지를 생성하는 스타일 강화 모델, 및, 상기 포즈 변환 이미지 및 상기 스타일 강화 이미지를 합성하여 최종 이미지를 생성하는 제어부를 포함한다.A fashion simulation device is disclosed. A fashion simulation device according to the present invention includes an encoder that extracts a feature map including image features and spatial features using an original image, original pose information, and target pose information, and generates a pose conversion image using the feature map. A decoder, a style enhancement model that extracts a style code from the original image and generates a style enhancement image using the style code and the feature map, and generates a final image by synthesizing the pose conversion image and the style enhancement image. It includes a control unit that

Description

패션 시뮬레이션 장치 및 방법{FASHION SIMULATION DEVICE AND METHOD}Fashion simulation device and method {FASHION SIMULATION DEVICE AND METHOD}

본 발명은, 사람의 패션을 유지하면서 포즈를 변환하는 기술에 있어서, 스타일 정보를 별도로 처리한 후 합성함으로써, 포즈가 변환된 이후에도 패션을 디테일하고 정확하게 구현할 수 있는, 패션 시뮬레이션 장치 및 방법에 관한 것이다.The present invention relates to a fashion simulation device and method capable of implementing fashion in detail and accurately even after a pose is transformed by separately processing and synthesizing style information in a technique of transforming a pose while maintaining a person's fashion. .

최근, 사람의 패션(옷, 메이크업, 머리 스타일 등)을 그대로 유지하면서, 사람의 포즈를 변환 시키는 휴먼 포즈 변환(Human Pose Transformer, HPT)에 대한 연구가 활발하게 진행되고 있다. 다만 현재 구현된 HPT 기술로는, 영상의 자연스러운 구현이 어렵다는 문제가 있다.Recently, research on a Human Pose Transformer (HPT) that transforms a person's pose while maintaining a person's fashion (clothes, makeup, hair style, etc.) has been actively conducted. However, with the currently implemented HPT technology, there is a problem in that it is difficult to implement a natural image.

도 1은 원본 이미지를 현재 구현된 HPT 기술에 따라 변환한 결과를 도시한 도면이다.1 is a diagram illustrating a result of converting an original image according to currently implemented HPT technology.

도 1을 참고하면, 원본 이미지(1110)로부터 포즈를 변환한 타겟 이미지(1120, 1130)를 생성하는 경우, 옷감에 대한 디테일한 해상도가 떨어지고, 옷에 대한 색상, 질감, 패턴 등의 다양한 스타일 정보가 왜곡되거나 누락되는 문제가 발생한다.Referring to FIG. 1 , when target images 1120 and 1130 obtained by transforming a pose from an original image 1110 are generated, detailed resolution of the fabric is lowered, and various style information such as color, texture, and pattern of the clothes is lost. There is a problem that is distorted or omitted.

또한 원본 이미지로부터 포즈가 변경되는 경우, 원본 이미지에서는 표현이 되지 않았던 영역(예를 들어 사람이 셔츠를 입고 있는 경우, 팔에 의해 가려진 셔츠의 일부)에 대하여 스타일 정보가 유추되어야 한다. 다만 종래의 HPT 기술로는, 해당 영역에서의 스타일 정보가 모호하게 표현되는 문제가 있었다.Also, when a pose is changed from an original image, style information must be inferred for a region that was not expressed in the original image (for example, a part of a shirt covered by an arm when a person is wearing a shirt). However, in the conventional HPT technology, there is a problem in that style information in a corresponding area is expressed ambiguously.

본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은 사람의 패션을 유지하면서 포즈를 변환하는 기술에 있어서, 스타일 정보를 별도로 처리한 후 합성함으로써, 포즈가 변환된 이후에도 패션을 디테일하고 정확하게 구현할 수 있는, 패션 시뮬레이션 장치 및 방법을 제공하기 위함이다.The present invention is to solve the above-mentioned problems, and an object of the present invention is a technique for transforming a pose while maintaining a person's fashion, by separately processing and then synthesizing style information, detailing the fashion even after the pose is transformed. It is to provide a fashion simulation device and method that can be accurately implemented.

본 발명에 따른 패션 시뮬레이션 장치는, 원본 이미지, 원본 포즈 정보 및 타겟 포즈 정보를 이용하여, 이미지 특징 및 공간 특징을 포함하는 특징 맵을 추출하는 인코더, 상기 특징 맵을 이용하여 포즈 변환 이미지를 생성하는 디코더, 상기 원본 이미지로부터 스타일 코드를 추출하고, 상기 스타일 코드 및 상기 특징 맵을 이용하여 스타일 강화 이미지를 생성하는 스타일 강화 모델, 및, 상기 포즈 변환 이미지 및 상기 스타일 강화 이미지를 합성하여 최종 이미지를 생성하는 제어부를 포함한다.A fashion simulation device according to the present invention includes an encoder that extracts a feature map including image features and spatial features using an original image, original pose information, and target pose information, and generates a pose conversion image using the feature map. A decoder, a style enhancement model that extracts a style code from the original image and generates a style enhancement image using the style code and the feature map, and generates a final image by synthesizing the pose conversion image and the style enhancement image. It includes a control unit that

이 경우 상기 스타일 강화 모델은, 상기 원본 이미지로부터 색상, 질감 및 패턴에 대한 특징을 포함하는 상기 스타일 코드를 추출하는 스타일 인코더, 및, 상기 특징 맵에 상기 스타일 코드를 매핑하여 업샘플링을 함으로써 상기 스타일 강화 이미지를 생성하는 스타일 디코더를 포함할 수 있다.In this case, the style enhancement model includes a style encoder for extracting the style code including color, texture, and pattern features from the original image, and upsampling by mapping the style code to the feature map. It may include a style decoder that generates an enhanced image.

이 경우 상기 스타일 디코더는, 복수의 업샘플링 레이어를 포함하고, 상기 복수의 업샘플링 레이어 각각은, 이전 업샘플링 레이어에서 출력된 강화 맵에 상기 스타일 코드를 매핑하여 현재 강화 맵을 출력할 수 있다.In this case, the style decoder may include a plurality of upsampling layers, and each of the plurality of upsampling layers may output a current enhancement map by mapping the style code to an enhancement map output from a previous upsampling layer.

한편 상기 인코더는, 상기 원본 포즈 정보 및 상기 타겟 포즈 정보 사이의 중간 포즈에 대한 중간 특징 맵을 생성할 수 있다.Meanwhile, the encoder may generate an intermediate feature map for an intermediate pose between the original pose information and the target pose information.

이 경우 상기 인코더는, 복수의 중간 생성 유닛을 포함하고, 상기 복수의 중간 생성 유닛 각각은, 이전 중간 특징 맵을 수신하고, 상기 이전 중간 특징 맵을 이용하여 해당 중간 생성 유닛에 대응하는 중간 타겟 포즈가 반영된 현재 중간 특징 맵을 생성할 수 있다.In this case, the encoder includes a plurality of intermediate generation units, and each of the plurality of intermediate generation units receives a previous intermediate feature map, and uses the previous intermediate feature map to intermediate target poses corresponding to the corresponding intermediate generation units. It is possible to create a current intermediate feature map in which is reflected.

이 경우 상기 복수의 중간 생성 유닛 각각은, 상기 이전 중간 특징 맵에 포함된 이전 중간 공간 특징을 포즈 처리하여 포즈 코드를 획득하고, 상기 이전 중간 특징 맵에 포함된 이전 중간 이미지 특징을 상기 포즈 코드에 반영하여 현재 중간 공간 특징을 출력하는 포즈 처리부를 포함할 수 있다.In this case, each of the plurality of intermediate generating units obtains a pose code by pose processing a previous intermediate spatial feature included in the previous intermediate feature map, and converts a previous intermediate image feature included in the previous intermediate feature map to the pose code. It may include a pose processing unit that reflects and outputs the current intermediate space feature.

이 경우 상기 복수의 중간 생성 유닛 각각은, 상기 이전 중간 특징 맵에 포함된 이전 중간 이미지 특징을 이미지 처리하여 이미지 코드를 획득하고, 상기 이미지 코드에 상기 포즈 코드를 반영하여 현재 중간 이미지 특징을 출력하는 이미지 처리부를 더 포함할 수 있다.In this case, each of the plurality of intermediate generating units obtains an image code by image processing a previous intermediate image feature included in the previous intermediate feature map, and outputs a current intermediate image feature by reflecting the pose code to the image code. An image processing unit may be further included.

한편 상기 원본 이미지로부터 얼굴을 탐지하여 얼굴 이미지를 생성하고, 상기 얼굴 이미지, 원본 얼굴 포즈 정보 및 타겟 얼굴 포즈 정보를 이용하여 얼굴 포즈 변환 이미지를 생성하는 얼굴 변환 모델을 더 포함하고, 상기 제어부는, 상기 최종 이미지에 상기 얼굴 포즈 변환 이미지를 추가적으로 합성하여 2차 최종 이미지를 생성할 수 있다.Meanwhile, a face transformation model for generating a face image by detecting a face from the original image, and generating a face pose transformation image using the face image, original face pose information, and target face pose information, wherein the control unit, A second final image may be generated by additionally combining the face pose conversion image with the final image.

한편 본 발명에 따른 패션 시뮬레이션 방법은, 인코더가, 원본 이미지, 원본 포즈 정보 및 타겟 포즈 정보를 이용하여, 이미지 특징 및 공간 특징을 포함하는 특징 맵을 추출하는 단계, 디코더가, 상기 특징 맵을 이용하여 포즈 변환 이미지를 생성하는 단계, 스타일 강화 모델이, 상기 원본 이미지로부터 스타일 코드를 추출하고, 상기 스타일 코드 및 상기 특징 맵을 이용하여 스타일 강화 이미지를 생성하는 단계, 및, 제어부가, 상기 포즈 변환 이미지 및 상기 스타일 강화 이미지를 합성하여 최종 이미지를 생성하는 단계를 포함한다.Meanwhile, in the fashion simulation method according to the present invention, an encoder extracts a feature map including image features and spatial features using an original image, original pose information, and target pose information, and a decoder uses the feature map. generating a pose transformation image, a style enhancement model extracting a style code from the original image, and generating a style enhancement image using the style code and the feature map, and, by a controller, the pose transformation and generating a final image by compositing the image and the style-enhanced image.

이 경우 상기 원본 이미지로부터 스타일 코드를 추출하고, 상기 스타일 코드 및 상기 특징 맵을 이용하여 스타일 강화 이미지를 생성하는 단계는, 상기 원본 이미지로부터 색상, 질감 및 패턴에 대한 특징을 포함하는 상기 스타일 코드를 추출하는 단계, 상기 특징 맵에 상기 스타일 코드를 매핑하여 업샘플링을 함으로써 상기 스타일 강화 이미지를 생성하는 단계를 포함할 수 있다.In this case, the step of extracting a style code from the original image and generating a style-enhanced image using the style code and the feature map includes the style code including color, texture, and pattern characteristics from the original image. The method may include extracting, and generating the style enhanced image by upsampling by mapping the style code to the feature map.

이 경우 상기 특징 맵에 상기 스타일 코드를 매핑하여 업샘플링을 함으로써 상기 스타일 강화 이미지를 생성하는 단계는, 복수의 업샘플링 레이어 각각이, 이전 업샘플링 레이어에서 출력된 강화 맵에 상기 스타일 코드를 매핑하여 현재 강화 맵을 출력하는 단계를 포함할 수 있다.In this case, the step of generating the style enhanced image by performing upsampling by mapping the style code to the feature map, each of a plurality of upsampling layers maps the style code to an enhancement map output from a previous upsampling layer, and outputting the current enhancement map.

한편 상기 이미지 특징 및 공간 특징을 포함하는 특징 맵을 추출하는 단계는, 상기 원본 포즈 정보 및 상기 타겟 포즈 정보 사이의 중간 포즈에 대한 중간 특징 맵을 생성하는 단계를 포함할 수 있다.Meanwhile, the extracting of the feature map including the image feature and the spatial feature may include generating an intermediate feature map for an intermediate pose between the original pose information and the target pose information.

이 경우 상기 중간 특징 맵을 생성하는 단계는, 복수의 중간 생성 유닛 각각이, 이전 중간 특징 맵을 수신하고, 상기 이전 중간 특징 맵을 이용하여 해당 중간 생성 유닛에 대응하는 중간 타겟 포즈가 반영된 현재 중간 특징 맵을 생성하는 단계를 포함할 수 있다.In this case, the step of generating the intermediate feature map may include receiving a previous intermediate feature map by each of a plurality of intermediate generating units, and using the previous intermediate feature map to reflect the current intermediate target pose corresponding to the corresponding intermediate generating unit. It may include generating a feature map.

이 경우 상기 복수의 중간 생성 유닛 각각이 현재 중간 특징 맵을 생성하는 단계는, 상기 이전 중간 특징 맵에 포함된 이전 중간 공간 특징을 포즈 처리하여 포즈 코드를 획득하고, 상기 이전 중간 특징 맵에 포함된 이전 중간 이미지 특징을 상기 포즈 코드에 반영하여 현재 중간 공간 특징을 출력하는 단계를 포함할 수 있다.In this case, the step of generating the current intermediate feature map by each of the plurality of intermediate generating units includes obtaining a pose code by pose-processing a previous intermediate spatial feature included in the previous intermediate feature map, and obtaining a pose code included in the previous intermediate feature map. and outputting a current intermediate space feature by reflecting a previous intermediate image feature to the pose code.

이 경우 상기 복수의 중간 생성 유닛 각각이 현재 중간 특징 맵을 생성하는 단계는, 상기 이전 중간 특징 맵에 포함된 이전 중간 이미지 특징을 이미지 처리하여 이미지 코드를 획득하고, 상기 이미지 코드에 상기 포즈 코드를 반영하여 현재 중간 이미지 특징을 출력하는 단계를 더 포함할 수 있다.In this case, the step of generating a current intermediate feature map by each of the plurality of intermediate generating units may include obtaining an image code by image processing a previous intermediate image feature included in the previous intermediate feature map, and converting the pose code to the image code. The method may further include outputting a current intermediate image feature by reflection.

한편 얼굴 변환 모델이, 상기 원본 이미지로부터 얼굴을 탐지하여 얼굴 이미지를 생성하고, 상기 얼굴 이미지, 원본 얼굴 포즈 정보 및 타겟 얼굴 포즈 정보를 이용하여 얼굴 포즈 변환 이미지를 생성하는 단계, 및, 상기 제어부가, 상기 최종 이미지에 상기 얼굴 포즈 변환 이미지를 추가적으로 합성하여 2차 최종 이미지를 생성하는 단계를 더 포함할 수 있다.Meanwhile, a face conversion model detects a face from the original image to generate a face image, and generates a face pose conversion image using the face image, original face pose information, and target face pose information, and the control unit , generating a second final image by additionally combining the face pose conversion image with the final image.

본 발명에 따르면, 색상, 색감, 질감, 패턴 등과 같은 스타일 정보의 손상을 최소화 하면서 포즈를 변환한 이미지를 생성할 수 있으며, 특히 디테일한 색상 표현의 결핍, 무늬 패턴의 모호, 스타일 불일치 등을 해결함으로써, 자연스러운 포즈 변환 이미지를 제공할 수 있는 장점이 있다.According to the present invention, it is possible to generate an image in which a pose is transformed while minimizing damage to style information such as color, color tone, texture, pattern, etc., and in particular, problems such as lack of detailed color expression, ambiguity of pattern patterns, and style inconsistency can be solved. By doing so, there is an advantage of providing a natural pose conversion image.

도 1은 원본 이미지를 현재 구현된 HPT 기술에 따라 변환한 결과를 도시한 도면이다.
도 2는 본 발명에 따른, 패션 시뮬레이션 장치를 설명하기 위한 블록도이다.
도 3은 본 발명에 따른 패션 시뮬레이션 방법을 설명하기 위한 순서도이다.
도 4는 본 발명에 따른, 인공지능 모델을 설명하기 위한 도면이다.
도 5는 본 발명에 따른, 포즈 변환 모델의 동작을 구체적으로 설명하기 위한 도면이다.
도 6은 본 발명에 따른 스타일 강화 모델의 동작을 설명하기 위한 도면이다.
1 is a diagram illustrating a result of converting an original image according to currently implemented HPT technology.
2 is a block diagram illustrating a fashion simulation device according to the present invention.
3 is a flowchart illustrating a fashion simulation method according to the present invention.
4 is a diagram for explaining an artificial intelligence model according to the present invention.
5 is a diagram for explaining in detail the operation of a pose transformation model according to the present invention.
6 is a diagram for explaining the operation of the style reinforcement model according to the present invention.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Hereinafter, the embodiments disclosed in this specification will be described in detail with reference to the accompanying drawings, but the same or similar elements are given the same reference numerals regardless of reference numerals, and redundant description thereof will be omitted. The suffixes "module" and "unit" for components used in the following description are given or used together in consideration of ease of writing the specification, and do not have meanings or roles that are distinct from each other by themselves. In addition, in describing the embodiments disclosed in this specification, if it is determined that a detailed description of a related known technology may obscure the gist of the embodiment disclosed in this specification, the detailed description thereof will be omitted. In addition, the accompanying drawings are only for easy understanding of the embodiments disclosed in this specification, the technical idea disclosed in this specification is not limited by the accompanying drawings, and all changes included in the spirit and technical scope of the present invention , it should be understood to include equivalents or substitutes.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.Terms including ordinal numbers, such as first and second, may be used to describe various components, but the components are not limited by the terms. These terms are only used for the purpose of distinguishing one component from another.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.It is understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, but other elements may exist in the middle. It should be. On the other hand, when an element is referred to as “directly connected” or “directly connected” to another element, it should be understood that no other element exists in the middle.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Singular expressions include plural expressions unless the context clearly dictates otherwise. In this application, terms such as "comprise" or "have" are intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other features It should be understood that the presence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded.

본 발명을 구현함에 있어서 설명의 편의를 위하여 구성요소를 세분화하여 설명할 수 있으나, 이들 구성요소가 하나의 장치 또는 모듈 내에 구현될 수도 있고, 혹은 하나의 구성요소가 다수의 장치 또는 모듈들에 나뉘어져서 구현될 수도 있다. In implementing the present invention, components may be subdivided for convenience of description, but these components may be implemented in one device or module, or one component may be divided into multiple devices or modules may be implemented in

도 2는 본 발명에 따른, 패션 시뮬레이션 장치를 설명하기 위한 블록도이다.2 is a block diagram illustrating a fashion simulation device according to the present invention.

도 1에서 설명하는 패션 시뮬레이션 장치(100)의 구성요소들은 본 발명에 따른 동작을 구현하는데 필수적인 것은 아니어서, 구성 요소들 중 일부는 생략될 수 있다.Components of the fashion simulation device 100 described in FIG. 1 are not essential to implement the operation according to the present invention, so some of the components may be omitted.

패션 시뮬레이션 장치(100)는, 영상 획득부(110), 제어부(120), 메모리(130) 및 출력부(140)를 포함할 수 있다.The fashion simulation device 100 may include an image capture unit 110, a controller 120, a memory 130, and an output unit 140.

패션 시뮬레이션 장치(100)는, 데이터 마이닝, 데이터 분석, 지능형 의사 결정 및 기계 학습 알고리즘을 위해 이용될 정보를 수신, 분류, 저장 및 출력하도록 구성될 수 있다.The fashion simulation device 100 may be configured to receive, classify, store and output information to be used for data mining, data analysis, intelligent decision making and machine learning algorithms.

영상 획득부(110)는 원본 이미지를 수집할 수 있다. 여기서 원본 이미지는 포즈 변환 전의 이미지를 의미한다.The image acquisition unit 110 may collect original images. Here, the original image means an image before pose transformation.

여기서 영상 획득부(110)는 영상 신호 입력을 위한 카메라를 포함하고, 카메라에 의해 촬영된 원본 이미지를 획득할 수 있다. 또한 영상 획득부(110)는 외부 장치와 통신하기 위한 통신부 또는 사용자로부터 데이터를 입력 받기 위한 입력부를 포함하고, 통신부 또는 입력부를 통하여 원본 이미지를 수신할 수 있다.Here, the image acquisition unit 110 may include a camera for inputting an image signal and obtain an original image captured by the camera. In addition, the image acquisition unit 110 includes a communication unit for communicating with an external device or an input unit for receiving data from a user, and may receive an original image through the communication unit or input unit.

또한 영상 획득부(110)는 타겟 이미지를 획득할 수 있다. 여기서 타겟 이미지는 변환될 포즈 정보(타겟 포즈 정보)를 포함할 수 있으며, 이 경우 제어부(120)는 타겟 이미지로부터 타겟 포즈 정보를 추출할 수 있다.Also, the image acquiring unit 110 may obtain a target image. Here, the target image may include pose information to be transformed (target pose information), and in this case, the controller 120 may extract target pose information from the target image.

또한 영상 획득부(110)는 외부에서 생성된 타겟 포즈 정보를 획득할 수 있다.Also, the image acquisition unit 110 may obtain target pose information generated from the outside.

출력부(140)는 시각과 관련된 출력을 발생시키는 디스플레이부를 포함할 수 있다. 디스플레이부는 패션 시뮬레이션 장치(100)에서 처리되는 정보, 예를 들어 패션 시뮬레이션 장치(100)에서 구동되는 응용 프로그램의 실행화면 정보나 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다. The output unit 140 may include a display unit that generates an output related to time. The display unit displays information processed by the fashion simulation device 100, for example, execution screen information of an application program driven by the fashion simulation device 100 or UI (User Interface) and GUI (Graphic User Interface) according to such execution screen information. information can be displayed.

메모리(130)는 인공지능 모델(131)을 저장할 수 있다. 구체적으로 인공지능 모델(131)은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 이 경우 인공지능 모델(131)을 구성하는 하나 이상의 명령어는 메모리(130)에 저장될 수 있다.The memory 130 may store the artificial intelligence model 131 . Specifically, the artificial intelligence model 131 may be implemented as hardware, software, or a combination of hardware and software. In this case, one or more instructions constituting the artificial intelligence model 131 may be stored in the memory 130 .

또한 메모리(130)는 패션 시뮬레이션 장치(100)의 동작을 위한 프로그램 또는 기타 명령어를 저장할 수 있다.Also, the memory 130 may store programs or other commands for operating the fashion simulation device 100 .

한편 제어부(120)는 패션 시뮬레이션 장치(100)의 전반적인 동작을 제어할 수 있다. 여기서 제어부는, 컨트롤러, 프로세서, 마이크로 프로세서 등의 용어와 혼용되어 사용될 수 있다.Meanwhile, the controller 120 may control overall operations of the fashion simulation device 100 . Here, the control unit may be used interchangeably with terms such as controller, processor, and microprocessor.

한편 제어부(120)는 메모리(130)에 저장된 인공지능 모델(131)을 독출하여 구동시킬 수 있다. 따라서 이하에서 설명하는 인공지능 모델(131)의 동작은, 제어부(120)의 동작으로도 볼 수 있다.Meanwhile, the controller 120 may read and drive the artificial intelligence model 131 stored in the memory 130 . Therefore, the operation of the artificial intelligence model 131 described below can also be seen as the operation of the control unit 120.

도 3은 본 발명에 따른 패션 시뮬레이션 방법을 설명하기 위한 순서도이다.3 is a flowchart illustrating a fashion simulation method according to the present invention.

본 발명에 따른 패션 시뮬레이션 방법은, 인코더가, 원본 이미지, 원본 포즈 정보 및 타겟 포즈 정보를 이용하여, 이미지 특징 및 공간 특징을 포함하는 특징 맵을 추출하는 단계(S310), 디코더가, 상기 특징 맵을 이용하여 포즈 변환 이미지를 생성하는 단계(S330), 스타일 강화 모델이, 상기 원본 이미지로부터 스타일 코드를 추출하고, 상기 스타일 코드 및 상기 특징 맵을 이용하여 스타일 강화 이미지를 생성하는 단계(S350), 및, 제어부가, 상기 포즈 변환 이미지 및 상기 스타일 강화 이미지를 합성하여 최종 이미지를 생성하는 단계(S370)를 포함할 수 있다.In the fashion simulation method according to the present invention, the encoder extracts a feature map including image features and spatial features using an original image, original pose information, and target pose information (S310), and a decoder, the feature map Generating a pose conversion image using (S330), extracting a style code from the original image by a style enhancement model, and generating a style enhancement image using the style code and the feature map (S350); And, it may include, by the controller, generating a final image by synthesizing the pose change image and the style enhancement image (S370).

도 4는 본 발명에 따른, 인공지능 모델을 설명하기 위한 도면이다.4 is a diagram for explaining an artificial intelligence model according to the present invention.

본 발명에 따른 인공지능 모델(131)은, 포즈 변환 모델(410) 및 스타일 강화 모델(420)을 포함할 수 있다.The artificial intelligence model 131 according to the present invention may include a pose transformation model 410 and a style enhancement model 420 .

포즈 변환 모델(410)은, 원본 이미지(Io)를 입력 받아, 원본 이미지의 스타일 정보는 유지하며 인물의 포즈만을 변환하는 것을 목적으로 하는 인공 신경망이다. The pose conversion model 410 is an artificial neural network that receives an original image Io and aims to transform only a pose of a person while maintaining style information of the original image.

따라서 포즈 변환 모델(410)은 입력 데이터를 입력 받아 특징 맵(Ft)를 추출하는 인코더(413)를 포함할 수 있다. 이 경우 인코더(413)는 인코더를 구성하는 요소(신경망, 노드 등)의 파라미터(가중치, 편향 등)에 기반하여 입력 데이터를 인코딩 하여 특징 맵(Ft)을 출력할 수 있다.Accordingly, the pose conversion model 410 may include an encoder 413 that receives input data and extracts a feature map Ft. In this case, the encoder 413 may output a feature map Ft by encoding input data based on parameters (weight, bias, etc.) of elements constituting the encoder (neural network, node, etc.).

또한 포즈 변환 모델(410)은 특징 맵(Ft)을 입력 받아 포즈 변환 이미지(Ic)를 출력하는 디코더(416)를 포함할 수 있다. 이 경우 디코더(416)는 디코더를 구성하는 요소(신경망, 노드 등)의 파라미터(가중치, 편향 등)에 기반하여 입력 데이터를 디코딩 하여 포즈 변환 이미지(Ic)를 출력할 수 있다.In addition, the pose transformation model 410 may include a decoder 416 that receives the feature map Ft and outputs a pose transformation image Ic. In this case, the decoder 416 may decode input data based on parameters (weights, biases, etc.) of elements constituting the decoder (neural networks, nodes, etc.) and output pose conversion images Ic.

한편 포즈 변환 모델(410)에 대한 입력 데이터는, 원본 이미지(Io), 원본 포즈 정보(Ps) 및 타겟 포즈 정보(Pt)를 포함할 수 있다.Meanwhile, input data for the pose transformation model 410 may include an original image Io, original pose information Ps, and target pose information Pt.

여기서 원본 포즈 정보(Ps)는 원본 이미지(Io)에 포함되는 인물의 포즈에 대한 정보를 포함하는 것으로, 원본 이미지(Io)에 포함되는 인물의 골격 포인트를 표현하는 스켈레톤 정보일 수 있다. Here, the original pose information Ps includes information on a pose of a person included in the original image Io, and may be skeleton information representing a skeleton point of the person included in the original image Io.

예를 들어 제어부(120)는 원본 이미지(Io)로부터 원본 포즈 정보(Ps)를 추출할 수 있다. 이 경우 제어부(120)는 사전에 학습된 포즈 추출기를 통해, 원본 이미지(Io)로부터 18개의 골격 포인트를 추출하고, 추출된 골격 포인트의 좌표를 18채널의 포즈 히트맵으로 나타낸 원본 포즈 정보(Ps)를 생성할 수 있다.For example, the controller 120 may extract the original pose information Ps from the original image Io. In this case, the control unit 120 extracts 18 skeletal points from the original image Io through a pre-learned pose extractor, and the original pose information (Ps) representing the coordinates of the extracted skeletal points as an 18-channel pose heat map. ) can be created.

또한 타겟 포즈 정보(Pt)는 원본 이미지(Io)에 포함되는 인물의 변환될 포즈에 대한 정보를 포함하는 것으로, 변환된 포즈를 취하는 인물의 골격 포인트를 표현하는 스켈레톤 정보일 수 있다. In addition, the target pose information Pt includes information on a pose to be transformed of a person included in the original image Io, and may be skeleton information representing a skeletal point of the person taking the transformed pose.

한편, 스타일 강화 모델(420)은, 포즈 변환 모델(410)보다, 원본 이미지(Io)의 스타일 정보를 강화하여 표현하는 것을 목적으로 하는 인공 신경망이다.Meanwhile, the style enhancement model 420 is an artificial neural network that aims to enhance and express the style information of the original image Io rather than the pose conversion model 410 .

여기서 스타일 정보는 색상, 질감 및 패턴 중 적어도 하나를 포함할 수 있다. 여기서 패턴은 티셔츠의 스프라이트 무늬, 바둑판 무늬 등과 같이, 색상이나 질감이 반복되어 나타나는 패턴을 의미할 수 있다.Here, the style information may include at least one of color, texture, and pattern. Here, the pattern may refer to a pattern in which colors or textures repeatedly appear, such as a sprite pattern or checkerboard pattern of a T-shirt.

스타일 강화 모델(420)에 대한 입력 데이터는 원본 이미지(Io)일 수 있다. 즉 포즈 변환 모델(410)보다 원본 이미지(Io)의 스타일 정보를 강화하여 표현하기 위해, 포즈 변환 모델(410)에서는 원본 이미지(Io), 원본 포즈 정보(Ps) 및 타겟 포즈 정보(Pt)가 입력 데이터로 사용된 것에 반해, 스타일 강화 모델(420)에서는 원본 이미지(Io)만이 입력 데이터로 사용될 수 있다. Input data for the style enhancement model 420 may be the original image Io. That is, in order to enhance and express the style information of the original image Io rather than the pose conversion model 410, the pose conversion model 410 includes the original image Io, the original pose information Ps, and the target pose information Pt. In contrast to being used as input data, only the original image Io may be used as input data in the style enhancement model 420 .

그리고 스타일 강화 모델(420)은 원본 이미지(Io)로부터 색상, 질감 및 패턴에 대한 특징을 포함하는 스타일 코드를 추출할 수 있다. 또한 스타일 강화 모델(420)은 스타일 코드 및 특징 맵(Ft)을 이용하여 스타일 강화 이미지(Rt)를 출력할 수 있다. Also, the style enhancement model 420 may extract a style code including features of color, texture, and pattern from the original image Io. Also, the style enhancement model 420 may output the style enhancement image Rt using the style code and the feature map Ft.

다음은 S310과 관련하여, 도 4와 함께 도 5를 참고하여 설명한다.The following will be described with reference to FIG. 5 together with FIG. 4 with respect to S310.

도 5는 본 발명에 따른, 포즈 변환 모델의 동작을 구체적으로 설명하기 위한 도면이다.5 is a diagram for explaining in detail the operation of a pose transformation model according to the present invention.

제어부(120)는 원본 이미지(Io), 원본 포즈 정보(Ps) 및 타겟 포즈 정보(Pt)를 포즈 변환 모델(410)에 입력할 수 있다.The controller 120 may input the original image Io, the original pose information Ps, and the target pose information Pt to the pose conversion model 410.

이 경우 포즈 변환 모델(410)의 인코더(413)는, 원본 이미지(Io), 원본 포즈 정보(Ps) 및 타겟 포즈 정보(Pt)를 이용하여, 특징 맵(Ft)을 추출하여 출력할 수 있다.In this case, the encoder 413 of the pose conversion model 410 may extract and output the feature map Ft using the original image Io, the original pose information Ps, and the target pose information Pt. .

여기서 특징 맵(Ft)은, 원본 이미지(Io), 원본 포즈 정보(Ps) 및 타겟 포즈 정보(Pt)를 다운 샘플링 하여 획득한 것으로, 이미지 특징(Fin) 및 공간 특징(Fpn)을 포함할 수 있다.Here, the feature map (Ft) is obtained by downsampling the original image (Io), the original pose information (Ps), and the target pose information (Pt), and may include an image feature (Fin) and a spatial feature (Fpn) there is.

여기서 공간 특징(Fpn)은 인물의 포즈에 대한 특징(feature) 벡터일 수 있으며, 변환 후의 포즈(타겟 포즈)에 대한 특징(공간적 정보)을 포함할 수 있다. 또한 공간 특징(Fpn)은 인물의 자세에 대한 특징뿐만 아니라 인물이 착용한 옷, 액세서리 등에 대한 특징을 포함할 수 있다.Here, the spatial feature (Fpn) may be a feature vector of a pose of a person, and may include a feature (spatial information) of a pose (target pose) after transformation. In addition, the space feature Fpn may include not only the characteristics of the character's posture, but also the characteristics of clothes and accessories worn by the character.

또한 이미지 특징(Fin)은, 인물의 포즈 및 스타일 정보에 대한 특징(feature) 벡터일 수 있다. 즉 이미지 특징(Fin)은 변환 후의 포즈(타겟 포즈)에 원본 이미지(Io)의 스타일 정보가 반영된 정보일 수 있다.Also, the image feature (Fin) may be a feature vector for pose and style information of a person. That is, the image feature Fin may be information in which the style information of the original image Io is reflected in the pose after conversion (target pose).

한편 원본 포즈 정보(Ps)로부터 타겟 포즈 정보(Pt)로 변환되는 범위가 클수록 스타일 정보 및 포즈에 왜곡이 많이 발생하는 반면, 원본 포즈 정보(Ps)로부터 타겟 포즈 정보(Pt)로 변환되는 범위가 작을수록 정확도가 높아지게 된다.On the other hand, the larger the range of conversion from the original pose information (Ps) to the target pose information (Pt), the more distortion occurs in the style information and pose. On the other hand, the range of conversion from the original pose information (Ps) to the target pose information (Pt) The smaller it is, the higher the accuracy.

따라서 본 발명에서는, 원본 포즈 정보(Ps)로부터 타겟 포즈 정보(Pt) 사이의 중간 포즈들에 대한 중간 특징 맵들을 산출하는 방식으로, 정확도를 높힌다.Therefore, in the present invention, accuracy is increased by calculating intermediate feature maps for intermediate poses between the original pose information (Ps) and the target pose information (Pt).

구체적으로, 포즈 변환 모델(410)의 인코더(413)는 원본 포즈 정보(Ps) 및 타겟 포즈 정보(Pt) 사이의 중간 포즈에 대한 중간 특징 맵을 생성할 수 있다.Specifically, the encoder 413 of the pose conversion model 410 may generate an intermediate feature map for an intermediate pose between the original pose information Ps and the target pose information Pt.

더욱 구체적으로, 최초에 원본 이미지(Io)가 포즈 변환 모델(410)의 인코더(413)에 입력될 수 있다. 이 경우 인코더(413)는 다운 샘플링 컨볼루션 레이어를 통하여 초기 이미지 특징(Fio)을 출력할 수 있다.More specifically, the original image Io may be initially input to the encoder 413 of the pose transformation model 410 . In this case, the encoder 413 may output an initial image feature (Fio) through a downsampling convolution layer.

또한 최초에, 원본 포즈 정보(Ps) 및 타겟 포즈 정보(Pt)가 인코더(413)에 입력될 수 있다. 이 경우 인코더(413)는 다운 샘플링 컨볼루션 레이어를 통하여 초기 공간 특징(Fpo)를 출력할 수 있다.Also, initially, original pose information (Ps) and target pose information (Pt) may be input to the encoder 413 . In this case, the encoder 413 may output the initial spatial feature Fpo through the downsampling convolution layer.

그리고 초기 이미지 특징(Fio) 및 초기 공간 특징(Fpo)을 포함하는 초기 공간 맵은, 인코더(413) 내 복수의 중간 생성 유닛(Unit 1, Unit 2, Unit n)을 순차적으로 통과하면서 변환되고, 이에 따라 최종적으로 이미지 특징(Fin) 및 공간 특징(Fpn)을 포함하는 특징 맵(Ft)가 출력될 수 있다. 여기서 유닛의 개수(n)는 원본 이미지의 종류나 기타 설정에 따라 변경될 수 있다.In addition, the initial spatial map including the initial image feature (Fio) and the initial spatial feature (Fpo) is converted while sequentially passing through a plurality of intermediate generating units (Unit 1, Unit 2, Unit n) in the encoder 413, Accordingly, the feature map Ft including the image feature Fin and the spatial feature Fpn may be finally output. Here, the number n of units may be changed according to the type of original image or other settings.

그리고 복수의 중간 생성 유닛(Unit 1, Unit 2, Unit n) 각각은, 이전 중간 특징 맵을 이용하여, 해당 중간 생성 유닛에 대응하는 중간 타겟 포즈가 반영된 현재 중간 특징 맵을 생성할 수 있다.Further, each of the plurality of intermediate generating units (Unit 1, Unit 2, and Unit n) may generate a current intermediate feature map in which an intermediate target pose corresponding to the intermediate generating unit is reflected by using a previous intermediate feature map.

이하에서는 제2 중간 생성 유닛(Unit 2)의 예를 들어 설명하며, 제2 중간 생성 유닛(Unit 2)의 동작은 다른 중간 생성 유닛에도 적용될 수 있다.Hereinafter, the second intermediate generating unit (Unit 2) will be described as an example, and the operation of the second intermediate generating unit (Unit 2) can be applied to other intermediate generating units as well.

도 5b를 참고하면, 제2 중간 생성 유닛(Unit 2)은 이전 중간 생성 유닛(Uint 1)로부터 이전 중간 특징 맵을 수신할 수 있다. 여기서 이전 중간 특징 맵은, 이전 중간 이미지 특징(Fi1) 및 이전 중간 공간 특징(Fp1)를 포함할 수 있다.Referring to FIG. 5B , the second intermediate generation unit (Unit 2) may receive the previous intermediate feature map from the previous intermediate generation unit (Uint 1). Here, the previous intermediate feature map may include a previous intermediate image feature (Fi1) and a previous intermediate spatial feature (Fp1).

그리고, 제2 중간 생성 유닛(Unit 2)은 하나 이상의 포즈 처리 레이어로 구성되는 포즈 처리부(520)를 포함하고, 이전 중간 특징 맵에 포함된 이전 중간 공간 특징(Fp1)을 포즈 처리하여 포즈 코드를 획득할 수 있다. And, the second intermediate generating unit (Unit 2) includes a pose processing unit 520 composed of one or more pose processing layers, and pose-processes the previous intermediate spatial feature (Fp1) included in the previous intermediate feature map to generate a pose code. can be obtained

이 경우 제2 중간 생성 유닛(Unit 2)에는, 이전 중간 공간 특징(Fp1)뿐만 아니라, 제2 중간 생성 유닛(Unit 2)에 상응하는 중간 타겟 포즈가 제공될 수 있다. 즉 제어부(120)는 원본 포즈 정보(Ps) 및 타겟 포즈 정보(Pt)를 이용하여, 원본 포즈 정보(Ps)로부터 타겟 포즈 정보(Pt)로 진행하는 과정의 중간 자세에 대한 중간 타겟 포즈를 생성할 수 있다. 또한 제어부(120)는 중간 생성 유닛의 개수와 동일한 개수의 중간 타겟 포즈들을 생성하고, 중간 타겟 포즈들을 포즈가 변환되는 순서에 따라 중간 생성 유닛들(Unit 1, Unit 2, Unit n)에 순차적으로 제공할 수 있다. 따라서 제2 중간 생성 유닛(Unit 2)에는, 원본 포즈 정보(Ps)로부터 타겟 포즈 정보(Pt)로 진행하는 과정의 두번째 중간 자세에 대한 중간 타겟 포즈가 제공될 수 있다. In this case, the intermediate target pose corresponding to the second intermediate generating unit Unit 2 may be provided as well as the previous intermediate spatial feature Fp1 . That is, the controller 120 uses the original pose information (Ps) and the target pose information (Pt) to generate an intermediate target pose for an intermediate posture in the process of proceeding from the original pose information (Ps) to the target pose information (Pt). can do. In addition, the control unit 120 generates the same number of intermediate target poses as the number of intermediate generation units, and sequentially assigns the intermediate target poses to the intermediate generation units (Unit 1, Unit 2, and Unit n) according to the order in which the poses are transformed. can provide Therefore, the intermediate target pose for the second intermediate posture in the process of proceeding from the original pose information (Ps) to the target pose information (Pt) may be provided to the second intermediate generation unit (Unit 2).

이 경우 제2 중간 생성 유닛(Unit 2)은, 제2 중간 생성 유닛(Unit 2)에 상응하는 중간 타겟 포즈를 이용하여 이전 중간 공간 특징(Fp1)을 포즈 처리함으로써 포즈 코드를 획득할 수 있다. 즉, 제2 중간 생성 유닛(Unit 2)의 포즈 처리부(520)에서 출력되는 포즈 코드는, 제2 중간 생성 유닛(Unit 2)에 대응하는 중간 타겟 포즈가 반영될 수 있다.In this case, the second intermediate generating unit (Unit 2) may obtain a pose code by pose-processing the previous intermediate spatial feature (Fp1) using an intermediate target pose corresponding to the second intermediate generating unit (Unit 2). That is, the intermediate target pose corresponding to the second intermediate generating unit (Unit 2) may be reflected in the pose code output from the pose processing unit 520 of the second intermediate generating unit (Unit 2).

한편 제2 중간 생성 유닛(Unit 2)은 하나 이상의 이미지 처리 레이어로 구성되는 이미지 처리부(510)를 포함하고, 이전 중간 특징 맵에 포함된 이전 중간 이미지 특징(Fi1)을 이미지 처리하여 이미지 코드를 획득할 수 있다. On the other hand, the second intermediate generating unit (Unit 2) includes an image processing unit 510 composed of one or more image processing layers, and image-processes the previous intermediate image feature (Fi1) included in the previous intermediate feature map to obtain an image code can do.

한편 이전 중간 이미지 특징(Fi1)은 제1 중간 생성 유닛(Unit 1)에 상응하는 중간 타겟 포즈가 적용된 스타일 정보를 포함하고, 제2 중간 생성 유닛(Unit 2)은 이전 중간 이미지 특징(Fi1)을 이용하여 이미지 코드를 생성하였다. 즉 제2 중간 생성 유닛(Unit 2)에서 생성된 이미지 코드는 아직, 이전의 중간 타겟 포즈 정보를 반영하고 있는 상태이다. Meanwhile, the previous intermediate image feature (Fi1) includes style information to which an intermediate target pose corresponding to the first intermediate image generating unit (Unit 1) is applied, and the second intermediate image generating unit (Unit 2) uses the previous intermediate image feature (Fi1). The image code was generated using . That is, the image code generated by the second intermediate generating unit (Unit 2) is still reflecting the previous intermediate target pose information.

따라서 이미지 처리부(510)는, 산출된 이미지 코드에 제2 중간 생성 유닛(Unit 2)에서 생성한 포즈 코드를 반영하여 현재 중간 이미지 특징(Fi2)을 출력할 수 있다.Accordingly, the image processing unit 510 may output the current intermediate image feature Fi2 by reflecting the pose code generated by the second intermediate generating unit Unit 2 to the calculated image code.

구체적으로 이미지 처리부(510)는 제2 중간 생성 유닛(Unit 2)의 포즈 처리부(520)에서 출력되는 포즈 코드에 시그모이드 함수(

Figure pat00001
)를 적용하여, 제2 중간 생성 유닛(Unit 2)에 상응하는 중간 타겟 포즈에서의 마스크 정보(Mt)를 생성할 수 있다. 그리고 이미지 처리부(510)는 제2 중간 생성 유닛(Unit 2)에서 출력된 이미지 코드와 마스크 정보(Mt) 간의 요소 별 곱셈(multiply)을 통하여, 현재 중간 이미지 특징(Fi2)을 출력할 수 있다. 즉, 중간 이미지 특징(Fi2)은 제2 중간 생성 유닛(Unit 2)에 상응하는 중간 타겟 포즈가 적용된 스타일 정보를 포함할 수 있다.Specifically, the image processing unit 510 performs a sigmoid function (
Figure pat00001
) may be applied to generate mask information (Mt) in an intermediate target pose corresponding to the second intermediate generating unit (Unit 2). The image processing unit 510 may output the current intermediate image feature Fi2 through element-by-element multiplication between the image code output from the second intermediate generation unit Unit 2 and the mask information Mt. That is, the intermediate image feature Fi2 may include style information to which an intermediate target pose corresponding to the second intermediate generating unit Unit 2 is applied.

한편 포즈 처리부(520)에서 출력된 포즈 코드는, 제2 중간 생성 유닛(Unit 2)에 상응하는 중간 타겟 포즈를 취하는 인물의 골격 포인트에 대한 정보를 포함하고 있다. Meanwhile, the pose code output from the pose processing unit 520 includes information on the skeleton points of a person taking an intermediate target pose corresponding to the second intermediate generating unit (Unit 2).

그리고 포즈 처리부(520)는 이전 중간 특징 맵에 포함된 이전 중간 이미지 특징(Fio)을 포즈 코드에 반영하여 현재 중간 공간 특징(Fp2)을 출력할 수 있다. 즉 포즈 처리부(520)는 이전 중간 이미지 특징(Fio)과 포즈 코드 간의 접합(depth Concatenation) 연산을 통해, 중간 타겟 포즈를 취하는 인물의 골격 포인트 및 골격 포인트를 연결하는 뼈대에 대한 정보를 포함하는 현재 중간 공간 특징(Fp2)을 출력할 수 있다. 즉 포즈 처리부(520)는 이전 중간 이미지 특징(Fio)과 포즈 코드를 이용하여, 골격 포인트 간의 오차가 보정되고 골격 포인트 간의 연결 정보가 강화된 현재 중간 공간 특징(Fp2)을 생성하고, 생성된 현재 중간 공간 특징(Fp2)을 다음의 중간 생성 유닛에 전달할 수 있다.Further, the pose processing unit 520 may output the current intermediate spatial feature Fp2 by reflecting the previous intermediate image feature Fio included in the previous intermediate feature map to the pose code. That is, the pose processing unit 520 performs a depth concatenation operation between the previous intermediate image feature (Fio) and the pose code, and the current information including information about the skeletal points of the person taking the intermediate target pose and the skeletal points connecting the skeletal points. The intermediate space feature (Fp2) can be output. That is, the pose processing unit 520 generates a current intermediate spatial feature Fp2 in which errors between skeletal points are corrected and connection information between skeletal points is reinforced using the previous intermediate image feature Fio and the pose code, and the generated current intermediate space feature Fp2 is generated. The intermediate spatial feature (Fp2) can be passed on to the next intermediate generating unit.

한편 동일한 방식으로, 마지막 중간 생성 유닛(Unit n)은 현재 중간 공간 특징(Fpn) 및 현재 중간 이미지 특징(Fin)을 포함하는 중간 특징 맵을 출력할 수 있다. Meanwhile, in the same way, the last intermediate generating unit (Unit n) may output an intermediate feature map including the current intermediate spatial feature (Fpn) and the current intermediate image feature (Fin).

이 경우 마지막 중간 생성 유닛(Unit n)에서 출력된 중간 특징 맵은, 포즈 변환 모델(410)의 인코더(413)에서 출력한 특징 맵(Ft)이 될 수 있다. 즉 마지막 중간 생성 유닛(Unit n)에서 출력된 중간 공간 특징(Fpn)에는 타겟 포즈 정보(Pt)가 반영되고, 마지막 중간 생성 유닛(Unit n)에서 출력된 중간 이미지 특징(Fin)은 타겟 포즈 정보(Pt)가 적용된 스타일 정보가 반영될 수 있다.In this case, the intermediate feature map output from the last intermediate generating unit (Unit n) may be the feature map (Ft) output from the encoder 413 of the pose conversion model 410. That is, the target pose information (Pt) is reflected in the intermediate space feature (Fpn) output from the last intermediate generation unit (Unit n), and the intermediate image feature (Fin) output from the last intermediate generation unit (Unit n) is the target pose information. Style information to which (Pt) is applied may be reflected.

다음으로 도 4를 참고하면, 포즈 변환 모델(410)의 디코더(416)는 이미지특징 특징 및 공간 특징을 포함하는 특징 맵(Ft)을 이용하여 포즈 변환 이미지(Ic)를 생성할 수 있다.Next, referring to FIG. 4 , the decoder 416 of the pose transformation model 410 may generate a pose transformation image Ic using a feature map Ft including image features and spatial features.

구체적으로 포즈 변환 모델(410)의 디코더(416)는 하나 이상의 업샘플링 레이어를 포함하며, 하나 이상의 업샘플링 레이어는 특징 맵(Ft)을 업샘플링 하여 타겟 포즈(Pt)가 반영된 포즈 변환 이미지(Ic)를 생성할 수 있다.Specifically, the decoder 416 of the pose conversion model 410 includes one or more upsampling layers, and the one or more upsampling layers upsamples the feature map Ft to generate a pose conversion image Ic reflecting the target pose Pt. ) can be created.

한편 포즈 변환 모델(410)의 포즈 변환 프로세스(Gp)는 다음과 같은 함수로 표현될 수 있다.Meanwhile, the pose transformation process Gp of the pose transformation model 410 may be expressed as the following function.

Figure pat00002
Figure pat00002

(Ic: 포즈 변환 이미지, Go: 포즈 변환 모델의 포즈 변환 프로세스 함수, Io: 원본 이미지, Ps: 원본 포즈 정보, Pt: 타겟 포즈 정보)(Ic: pose conversion image, Go: pose conversion process function of pose conversion model, Io: original image, Ps: original pose information, Pt: target pose information)

한편 포즈 변환 이미지(Ic)는 타겟 포즈를 취하는 인물을 포함하며, 이 인물에는 원본 이미지(Io)에 포함된 인물의 색상, 질감, 패턴 등에 대한 스타일 정보가 반영되어 있다. 다만 도 1에서 설명한 바와 같이, 이러한 스타일 정보는 왜곡되어 있거나 일부가 누락되어 있는 상태이다. 그리고 이렇게 불완전한 스타일 정보는, 스타일 강화 모델(420)에 의해 보완될 수 있다. 이와 관련해서는 도 4와 함께 도 6을 참고하여 설명한다.Meanwhile, the pose conversion image Ic includes a person taking a target pose, and style information about the color, texture, pattern, etc. of the person included in the original image Io is reflected in this person. However, as described in FIG. 1, this style information is distorted or partially missing. And such incomplete style information may be supplemented by the style enhancement model 420 . This will be described with reference to FIG. 6 together with FIG. 4 .

도 6은 본 발명에 따른 스타일 강화 모델의 동작을 설명하기 위한 도면이다.6 is a diagram for explaining the operation of the style reinforcement model according to the present invention.

본 발명에 따른 스타일 강화 모델(420)은 스타일 인코더(610) 및 스타일 디코더(620)를 포함할 수 있다. 그리고 스타일 강화 모델(420)은, 원본 이미지(Io)로부터 스타일 코드를 추출하고, 스타일 코드 및 특징 맵(Ft)을 이용하여 스타일 강화 이미지(Rt)를 생성할 수 있다(S350).The style enhancement model 420 according to the present invention may include a style encoder 610 and a style decoder 620 . The style enhancement model 420 may extract a style code from the original image Io and generate a style enhancement image Rt using the style code and the feature map Ft (S350).

먼저 스타일 인코더(610)는, 원본 이미지(Io)로부터 스타일 정보와 관련된 특징(feature)을 추출할 수 있다.First, the style encoder 610 may extract features related to style information from the original image Io.

구체적으로 스타일 인코더(610)는 하나 이상의 스타일 인코딩 레이어(611)를 포함할 수 있다. 이 경우 하나 이상의 스타일 인코딩 레이어(611)는 원본 이미지(Io)를 다운샘플링 함으로써 색상, 질감 및 패턴에 대한 특징(feature)을 추출할 수 있다.In detail, the style encoder 610 may include one or more style encoding layers 611 . In this case, the one or more style encoding layers 611 may extract features of color, texture, and pattern by downsampling the original image Io.

또한 스타일 인코더(610) 내 완전 연결 신경망(FC)는, GAP(Global Average Pooling)를 통하여, 추출된 특징(feature)을 스타일 코드(style code)로 전환할 수 있다. 이에 따라 스타일 코드는, 원본 이미지(Io)로부터 추출된, 색상, 질감 및 패턴에 대한 특징을 포함할 수 있다. In addition, the fully connected neural network (FC) in the style encoder 610 may convert the extracted feature into a style code through Global Average Pooling (GAP). Accordingly, the style code may include characteristics of color, texture, and pattern extracted from the original image Io.

다음으로, 스타일 디코더(620)는 스타일 코드 및 특징 맵(Ft)을 이용하여 스타일 강화 이미지(Rt)를 생성할 수 있다. 여기서 스타일 강화 이미지(Rt)는 Detail Residual Map이라 명칭될 수도 있다.Next, the style decoder 620 may generate the style enhanced image Rt using the style code and the feature map Ft. Here, the style enhanced image Rt may also be named Detail Residual Map.

구체적으로 스타일 디코더(620)는 복수의 업샘플링 레이어(621)를 포함할 수 있다. In detail, the style decoder 620 may include a plurality of upsampling layers 621 .

이 경우 복수의 업샘플링 레이어(621)는 특징 맵(Ft)에 스타일 코드를 매핑하여 업샘플링을 함으로써, 스타일 강화 이미지(Rt)를 생성할 수 있다.In this case, the plurality of upsampling layers 621 may generate the style enhanced image Rt by performing upsampling by mapping a style code to the feature map Ft.

즉 앞서 설명한 특징 맵(Ft)은 공간 특징을 포함하고, 공간 특징에는 타겟 포즈 정보가 반영된다. 그리고 복수의 업샘플링 레이어(621)는 특징 맵(Ft)에 포함되는 공간 특징과 스타일 코드를 매핑 및 업샘플링 하여, 스타일 강화 이미지(Rt)를 생성할 수 있다.That is, the feature map Ft described above includes spatial features, and target pose information is reflected in the spatial features. The plurality of upsampling layers 621 may generate the style enhanced image Rt by mapping and upsampling spatial features and style codes included in the feature map Ft.

또한 복수의 업샘플링 레이어(621)는, 개별적으로 스타일 코드를 반영하여 강화 맵을 출력할 수 있다. In addition, the plurality of upsampling layers 621 may individually reflect style codes and output enhancement maps.

구체적으로 복수의 업샘플링 레이어(621) 각각은, 이전 업샘플링 레이어에서 출력된 강화 맵에 스타일 코드를 매핑하여 현재 강화 맵을 출력할 수 있다. In detail, each of the plurality of upsampling layers 621 may output a current enhancement map by mapping a style code to an enhancement map output from a previous upsampling layer.

예를 들어 제1 업샘플링 레이어는 특징 맵(Ft)에 포함되는 공간 특징과 스타일 코드를 매핑 및 업샘플링 하여 제1 강화 맵을 출력할 수 있다. 또한 제2 업샘플링 레이어는 제1 강화 맵과 스타일 코드를 매핑 및 업샘플링 하여 제2 강화 맵을 출력할 수 있다. 이와 같은 방식으로, 복수의 업샘플링 레이어 중 마지막 업샘플링 레이어가 출력한 강화 맵이 스타일 강화 이미지(Rt)로 사용될 수 있다.For example, the first upsampling layer may output a first enhancement map by mapping and upsampling spatial features and style codes included in the feature map Ft. Also, the second upsampling layer may output a second enhancement map by mapping and upsampling the first enhancement map and the style code. In this way, an enhancement map output by a last upsampling layer among a plurality of upsampling layers may be used as the style enhancement image Rt.

한편 하나 이상의 스타일 디코딩 레이어(621)는, 적응적 인스턴트 정규화(Adaptive Instance Normalization, AdaIN) 레이어로 구성될 수 있다.Meanwhile, one or more style decoding layers 621 may be composed of an Adaptive Instance Normalization (AdaIN) layer.

한편 스타일 강화 이미지(Rt)는 스타일 코드와 특징 맵(Ft)의 매핑 및 업샘플링을 반복하여 생성되었기 때문에, 스타일 정보에 타겟 포즈 정보가 반영된 상태이다. 또한 포즈 변환 모델(410)에서 추출된 이미지 특징은 포즈와 관련된 정보와 스타일에 관련된 정보가 혼합된 것인데 반해, 스타일 강화 모델(420)에서 추출된 스타일 코드는 원본 이미지(Io)만으로부터 스타일에 관련된 정보를 뽑아낸 것이다. 따라서 스타일 강화 이미지(Rt)는 포즈 변환 이미지(Ic)에 비해 강화된 스타일 정보를 포함할 수 있다.Meanwhile, since the style enhanced image Rt is generated by repeating mapping and upsampling of the style code and feature map Ft, the target pose information is reflected in the style information. In addition, the image feature extracted from the pose conversion model 410 is a mixture of pose-related information and style-related information, whereas the style code extracted from the style enhancement model 420 is style-related from only the original image Io. information was extracted. Accordingly, the style enhancement image Rt may include enhanced style information compared to the pose change image Ic.

한편 스타일 강화 모델(420)의 스타일 디코더(620)의 스타일 강화 프로세스(GT)는 다음과 같은 함수로 표현될 수 있다.Meanwhile, the style reinforcement process GT of the style decoder 620 of the style reinforcement model 420 can be expressed as the following function.

Figure pat00003
Figure pat00003

(Rt: 스타일 강화 이미지, GT: 스타일 강화 함수, style code: 스타일 코드, Ft: 특징 맵)(Rt: style enhanced image, GT: style enhanced function, style code: style code, Ft: feature map)

다음으로, 제어부(120)는 포즈 변환 이미지(Ic)에 스타일 강화 이미지(Rt)를 합성하여 최종 이미지(It)를 생성할 수 있다(S370).Next, the controller 120 may generate a final image It by combining the style enhancement image Rt with the pose change image Ic (S370).

이 경우 제어부(120)는 포즈 변환 이미지(Ic) 상에 스타일 강화 이미지(Rt)를 중첩할 수 있으며, 알파 블랜딩 기법을 사용하여 포즈 변환 이미지(Ic) 상에 스타일 강화 이미지(Rt)를 중첩할 수 있다.In this case, the controller 120 may superimpose the style enhancement image Rt on the pose conversion image Ic, and superimpose the style enhancement image Rt on the pose conversion image Ic using an alpha blending technique. can

한편 도 4를 다시 참고하면, 인공지능 모델(131)은 얼굴 변환 모델(430)을 더 포함할 수 있다.Meanwhile, referring to FIG. 4 again, the artificial intelligence model 131 may further include a face conversion model 430.

여기서 얼굴 변환 모델(430)은, 원본 이미지(Io)로부터 얼굴 이미지를 추출하고, 얼굴 이미지의 스타일 정보는 유지하며 얼굴의 포즈만을 변환하는 것을 목적으로 하는 인공 신경망이다. Here, the face transformation model 430 is an artificial neural network for the purpose of extracting a face image from the original image Io and transforming only the pose of the face while maintaining style information of the face image.

따라서 얼굴 변환 모델(430)은 원본 이미지(Io)로부터 얼굴을 탐지하여 얼굴 이미지(Fo)를 생성하는 얼굴 탐지기(430)를 포함할 수 있다.Accordingly, the face transformation model 430 may include a face detector 430 that detects a face from the original image Io and generates a face image Fo.

또한 앞서 설명한 포즈 변환 모델(410)의 동작은, 얼굴 강화 모델(436)의 동작에도 적용될 수 있다.In addition, the operation of the pose transformation model 410 described above may also be applied to the operation of the face enhancement model 436 .

즉 제어부(120)는 얼굴 이미지(Fo), 원본 얼굴 포즈 정보 및 타겟 얼굴 포즈 정보(FS)를 포함하는 입력 데이터를 얼굴 강화 모델(436)에 제공할 수 있다. 이 경우 얼굴 강화 모델(436)은 얼굴 이미지(Fo), 원본 얼굴 포즈 정보 및 타겟 얼굴 포즈 정보(Fs)를 이용하여 얼굴 포즈 변환 이미지(Fg)를 생성할 수 있다.That is, the controller 120 may provide input data including the face image Fo, original face pose information, and target face pose information FS to the face enhancement model 436 . In this case, the face enhancement model 436 may generate a face pose conversion image Fg using the face image Fo, original face pose information, and target face pose information Fs.

구체적으로, 얼굴 강화 모델(436)의 인코더는 입력 데이터를 인코딩 하여 얼굴 특징 맵을 출력하고, 얼굴 강화 모델(436)의 디코더는 얼굴 특징 맵을 디코딩하여 얼굴 포즈 변환 이미지(Fg)를 출력할 수 있다.Specifically, the encoder of the face enhancement model 436 may encode input data and output a facial feature map, and the decoder of the face enhancement model 436 may decode the facial feature map and output a face pose conversion image Fg. there is.

이 경우 제어부(120)는 최종 이미지(It)에 얼굴 포즈 변환 이미지(Fg)를 추가적으로 합성하여 2차 최종 이미지(IF)를 생성할 수 있다. 이는 다음과 같은 수학식으로 표현될 수 있다.In this case, the controller 120 may generate the second final image IF by additionally combining the face pose conversion image Fg with the final image It. This can be expressed in the following equation.

Figure pat00004
Figure pat00004

Figure pat00005
Figure pat00005

수학식 3에서,

Figure pat00006
는 2D 가우시간(Gaussian) 커널을 의미하고, *는 2D 컨볼루션 연산자를 의미할 수 있다. 또한 1BF는 인디케이터(indicator) 함수로, 얼굴 영역에서는 1을 반환하고, 나머지 영역에서는 0을 반영할 수 있다.In Equation 3,
Figure pat00006
denotes a 2D Gaussian kernel, and * may denote a 2D convolution operator. Also, 1 BF is an indicator function, and may return 1 in the face area and reflect 0 in the other areas.

따라서 수학식 4에 따라, 얼굴 영역에서는 얼굴 포즈 변환 이미지(Fg)가 반영되고, 나머지 영역에서는 최종 이미지(It)가 반영되는, 2차 최종 이미지(IF)가 생성될 수 있다.Accordingly, according to Equation 4, a secondary final image I F in which the face pose conversion image Fg is reflected in the face area and the final image It is reflected in the remaining areas may be generated.

다음은 인공지능 모델(131)을 트레이닝 하기 위한 손실 함수에 대하여 설명한다.Next, a loss function for training the artificial intelligence model 131 will be described.

먼저 포즈 변환 모델(410)을 트레이닝 하기 위한 손실 함수는 다음과 같이 정의될 수 있다.First, a loss function for training the pose transformation model 410 may be defined as follows.

Figure pat00007
Figure pat00007

(LPTP: 포즈 변환 모델(410)에 대한 손실 함수, Lrecon: 정답 이미지(

Figure pat00008
)와 포즈 변환 이미지(Ic)간의 차이, Lper: Perceptual loss,
Figure pat00009
: 상수,
Figure pat00010
: 상수)(L PTP : loss function for pose conversion model 410, L recon : correct image (
Figure pat00008
) and the difference between the pose conversion image (Ic), L per : Perceptual loss,
Figure pat00009
: a constant,
Figure pat00010
: a constant)

즉 제어부(120)는 정답 이미지(

Figure pat00011
)(타겟 포즈를 취하고 완전한 스타일 정보를 가지고 있는 이미지)와 포즈 변환 이미지(Ic)간의 차이(Lrecon)를 이용하여 포즈 변환 모델(410)을 트레이닝 할 수 있다. 더욱 구체적으로 정답 이미지(
Figure pat00012
)와 포즈 변환 이미지(Ic)간의 차이(Lrecon)는, 정답 이미지(
Figure pat00013
)와 포즈 변환 이미지(Ic)의 각 픽셀 값을 유클리드 거리(Euclidean Distance)로 정규화(Normalized)함으로써 산출될 수 있다.That is, the control unit 120 provides an answer image (
Figure pat00011
) (an image taking a target pose and having complete style information) and the pose conversion image Ic (Lrecon), the pose conversion model 410 can be trained. More specifically, the correct answer image (
Figure pat00012
) And the difference (Lrecon) between the pose conversion image (Ic) is the correct image (
Figure pat00013
) and each pixel value of the pose conversion image Ic by Euclidean distance.

또한 Lper는 Perceptual loss를 의미하는 것으로, 다음과 같이 표현될 수 있다.In addition, L per means perceptual loss, and can be expressed as follows.

Figure pat00014
Figure pat00014

(

Figure pat00015
: 미리 학습된 VGG19 네트워크, l: 레이어의 인덱스, C: 채널수, H: 높이, W: 넓이,
Figure pat00016
: 정답 이미지, Ic: 포즈 변환 이미지)(
Figure pat00015
: pretrained VGG19 network, l: layer index, C: number of channels, H: height, W: width,
Figure pat00016
: Answer image, Ic: Pose conversion image)

다음으로, 수학식 5의 손실 함수에, 스타일 강화 모델(420)을 트레이닝 하기 위한 손실 함수와, 생성적 적대 신경망(Generative Adversarial Network, GAN) 알고리즘에 기반하여 포즈 변환 모델(410) 및 스타일 강화 모델(420)을 트레이닝 하기 위한 손실 함수가 추가될 수 있다. 이는 다음과 같은 수학식으로 정의될 수 있다.Next, the pose conversion model 410 and the style reinforcement model based on the loss function of Equation 5, the loss function for training the style reinforcement model 420, and the generative adversarial network (GAN) algorithm A loss function to train 420 may be added. This can be defined by the following equation.

Figure pat00017
Figure pat00017

(LDEP: 포즈 변환 모델(410) 및 스타일 강화 모델(420)에 대한 손실 함수, Lsty: 스타일 강화 모델(420)에 대한 손실 함수, LGAN: GAN 알고리즘에 기반한 손실 함수)(L DEP : loss function for pose transformation model 410 and style enhancement model 420, L sty : loss function for style enhancement model 420, L GAN : loss function based on GAN algorithm)

또한 Lsty는 Gram Matrix에 기반한 손실 함수로, 다음과 같이 표현될 수 있다.Also, Lsty is a loss function based on the Gram Matrix and can be expressed as follows.

Figure pat00018
Figure pat00018

(Lsty: 스타일 강화 모델(420)에 대한 손실 함수,

Figure pat00019
: 미리 학습된 VGG19 네트워크, l: 레이어의 인덱스, C: 채널수, H: 높이, W: 넓이,
Figure pat00020
: 정답 이미지, IF: 최종 이미지)(L sty : loss function for the style enhancement model 420,
Figure pat00019
: pretrained VGG19 network, l: layer index, C: number of channels, H: height, W: width,
Figure pat00020
: correct answer image, I F : final image)

이 경우 제어부(120)는 정답 이미지(

Figure pat00021
)와 최종 이미지(IF)를 VGG19 네트워크에 입력하고, 레이어에서 출력한 Style Representation에 Gram Matrix 함수(G)를 활용하여 내적을 수행함으로써, 최소 손실 값을 산출할 수 있다. 즉 Gram Matrix 함수(G)를 활용하여 레이어의 Style Representation를 내적함으로써, 스타일 정보에 더 집중한 손실 함수가 설계될 수 있다.In this case, the control unit 120 is a correct image (
Figure pat00021
) and the final image (I F ) into the VGG19 network, and performing the dot product using the Gram Matrix function (G) on the Style Representation output from the layer, the minimum loss value can be calculated. That is, by using the Gram Matrix function (G) to dot the style representation of the layer, a loss function more focused on style information can be designed.

한편 LGAN은 GAN 알고리즘에 기반한 손실 함수로 다음과 같이 표현될 수 있다.Meanwhile, L GAN can be expressed as a loss function based on the GAN algorithm as follows.

Figure pat00022
Figure pat00022

즉 GAN 알고리즘에 기반한 손실 함수(LGAN)는 두 개의 조건부 디스크립터를 포함할 수 있다. 구체적으로 GAN 알고리즘에 기반한 손실 함수(LGAN)는 스타일 디스크립터(Ds) 및 포즈 디스크립터(Dp)를 포함할 수 있다. That is, the loss function (L GAN ) based on the GAN algorithm may include two conditional descriptors. Specifically, the loss function (L GAN ) based on the GAN algorithm may include a style descriptor (Ds) and a pose descriptor (Dp).

이 경우 스타일 디스크립터(Ds)는 스타일 정보에 대하여, 원본 이미지(Io)와 최종 이미지(It) 간의 제1 차이와, 원본 이미지(Io)와 정답 이미지(

Figure pat00023
) 간의 제2 차이를 산출하고, 제1 차이와 제2 차이 간의 차를 산출할 수 있다. 이에 따라, 원본 이미지(Io)와 최종 이미지(It)의 스타일 정보에 대하여, 제1 차이와 제2 차이의 차가 0에 가까울수록 GAN 알고리즘에 기반한 손실 함수(LGAN)는 작아질 수 있다.In this case, the style descriptor (Ds) is the first difference between the original image (Io) and the final image (It), the original image (Io) and the correct image (with respect to style information)
Figure pat00023
), and a difference between the first difference and the second difference may be calculated. Accordingly, the loss function (L GAN ) based on the GAN algorithm may decrease as the difference between the first difference and the second difference between the original image Io and the final image It is closer to 0.

또한 포즈 디스크립터(Dp)는 포즈 정보에 대하여, 타겟 포즈 정보(Pt)와 최종 이미지(It) 간의 제1 차이와, 타겟 포즈 정보(Pt)와 정답 이미지(

Figure pat00024
) 간의 제2 차이를 산출하고, 제1 차이와 제2 차이 간의 차를 산출할 수 있다. 이에 따라, 타겟 포즈 정보(Pt)와 최종 이미지(It)의 포즈 정보에 대하여, 제1 차이와 제2 차이의 차가 0에 가까울수록 GAN 알고리즘에 기반한 손실 함수(LGAN)는 작아질 수 있다.In addition, the pose descriptor (Dp) is the first difference between the target pose information (Pt) and the final image (It), the target pose information (Pt) and the correct image (with respect to pose information)
Figure pat00024
), and a difference between the first difference and the second difference may be calculated. Accordingly, as the difference between the first difference and the second difference between the target pose information Pt and the pose information of the final image It is closer to 0, the loss function L GAN based on the GAN algorithm may decrease.

현재 상용 온라인 패션 쇼핑몰 등에서 적용된 가상 피팅 서비스 기술의 경우, 포즈가 고정되어 있을 뿐만 아니라, 옷의 질감, 색감, 패턴 무늬 등을 실감나게 표현하지 못하는 한계가 있다. Currently, in the case of virtual fitting service technology applied in commercial online fashion shopping malls, not only poses are fixed, but also there is a limit in that the texture, color, pattern, etc. of clothes cannot be realistically expressed.

다만 본 발명에 따르면, 색상, 색감, 질감, 패턴 등과 같은 스타일 정보의 손상을 최소화 하면서 포즈를 변환한 이미지를 생성할 수 있으며, 특히 디테일한 색상 표현의 결핍, 무늬 패턴의 모호, 스타일 불일치 등을 해결함으로써, 자연스러운 포즈 변환 이미지를 제공할 수 있는 장점이 있다.However, according to the present invention, it is possible to generate an image in which a pose is transformed while minimizing damage to style information such as color, color, texture, pattern, etc. By solving the problem, there is an advantage in providing a natural pose change image.

또한 본 발명에 따르면, 또한 원본 이미지로부터 포즈가 변경되는 경우, 원본 이미지에서는 표현이 되지 않았던 영역의 스타일 정보까지 명확하게 표현할 수 있는 장점이 있다.In addition, according to the present invention, when a pose is changed from an original image, there is an advantage in that even style information of a region not expressed in the original image can be clearly expressed.

이에 따라 본 발명은 패션, 보안, 영상 제작 등 다양한 분야에 적용될 수 있다. 예를 들어 본 발명은, CCTV 등의 영상처리 보안 분야에서 용의자를 다각적으로 분석하는데 활용될 수도 있다. 즉 본 발명에서는 원본 이미지 한장으로 다양한 포즈의 이미지를 생성할 수 있을 뿐만 아니라, 용의자가 입은 옷을 손상 없이 재연할 수 있기 때문에, 각종 범죄 현장이나 보안 분야에서 용의자를 분석하는데 효과적으로 사용될 수 있다.Accordingly, the present invention can be applied to various fields such as fashion, security, and video production. For example, the present invention may be used to analyze a suspect in various ways in the field of image processing security such as CCTV. That is, in the present invention, not only can images of various poses be created from one original image, but also clothes worn by a suspect can be reproduced without damage, so it can be effectively used to analyze a suspect in various crime scenes or security fields.

또 다른 예를 들어 본 발명은, 온라인 쇼핑몰을 이용하는 소비자에게 다양한 포즈의 패션 정보를 제공하는데 사용될 수 있으며, 영상 제작에 있어서 추가 촬영 없이도 인물의 다양한 포즈를 생성해낼 수 있는 장점이 있다.For another example, the present invention can be used to provide fashion information of various poses to consumers using online shopping malls, and has the advantage of being able to generate various poses of a person without additional photography in video production.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 제어부를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.The above-described present invention can be implemented as computer readable code on a medium on which a program is recorded. The computer-readable medium includes all types of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable media include Hard Disk Drive (HDD), Solid State Disk (SSD), Silicon Disk Drive (SDD), ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc. there is Also, the computer may include a control unit. Accordingly, the above detailed description should not be construed as limiting in all respects and should be considered as illustrative. The scope of the present invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of the present invention.

110: 영상 획득부 120: 제어부
130: 메모리 140: 출력부
110: image acquisition unit 120: control unit
130: memory 140: output unit

Claims (16)

원본 이미지, 원본 포즈 정보 및 타겟 포즈 정보를 이용하여, 이미지 특징 및 공간 특징을 포함하는 특징 맵을 추출하는 인코더;
상기 특징 맵을 이용하여 포즈 변환 이미지를 생성하는 디코더;
상기 원본 이미지로부터 스타일 코드를 추출하고, 상기 스타일 코드 및 상기 특징 맵을 이용하여 스타일 강화 이미지를 생성하는 스타일 강화 모델; 및
상기 포즈 변환 이미지 및 상기 스타일 강화 이미지를 합성하여 최종 이미지를 생성하는 제어부;를 포함하는
패션 시뮬레이션 장치.
an encoder that extracts a feature map including image features and spatial features using the original image, original pose information, and target pose information;
a decoder generating a pose conversion image using the feature map;
a style enhancement model extracting a style code from the original image and generating a style enhanced image using the style code and the feature map; and
A control unit generating a final image by synthesizing the pose conversion image and the style enhancement image;
Fashion simulation device.
제 1항에 있어서,
상기 스타일 강화 모델은,
상기 원본 이미지로부터 색상, 질감 및 패턴에 대한 특징을 포함하는 상기 스타일 코드를 추출하는 스타일 인코더; 및
상기 특징 맵에 상기 스타일 코드를 매핑하여 업샘플링을 함으로써 상기 스타일 강화 이미지를 생성하는 스타일 디코더;를 포함하는
패션 시뮬레이션 장치.
According to claim 1,
The style reinforcement model,
a style encoder extracting the style code including color, texture, and pattern features from the original image; and
A style decoder configured to map the style code to the feature map and perform upsampling to generate the style enhanced image.
Fashion simulation device.
제 2항에 있어서,
상기 스타일 디코더는, 복수의 업샘플링 레이어를 포함하고,
상기 복수의 업샘플링 레이어 각각은,
이전 업샘플링 레이어에서 출력된 강화 맵에 상기 스타일 코드를 매핑하여 현재 강화 맵을 출력하는
패션 시뮬레이션 장치.
According to claim 2,
The style decoder includes a plurality of upsampling layers,
Each of the plurality of upsampling layers,
Mapping the style code to the enhancement map output from the previous upsampling layer to output the current enhancement map
Fashion simulation device.
제 1항에 있어서,
상기 인코더는,
상기 원본 포즈 정보 및 상기 타겟 포즈 정보 사이의 중간 포즈에 대한 중간 특징 맵을 생성하는
패션 시뮬레이션 장치.
According to claim 1,
The encoder,
Generating an intermediate feature map for an intermediate pose between the original pose information and the target pose information
Fashion simulation device.
제 4항에 있어서,
상기 인코더는, 복수의 중간 생성 유닛을 포함하고,
상기 복수의 중간 생성 유닛 각각은,
이전 중간 특징 맵을 수신하고, 상기 이전 중간 특징 맵을 이용하여 해당 중간 생성 유닛에 대응하는 중간 타겟 포즈가 반영된 현재 중간 특징 맵을 생성하는
패션 시뮬레이션 장치.
According to claim 4,
The encoder includes a plurality of intermediate generating units;
Each of the plurality of intermediate generating units,
Receiving a previous intermediate feature map, and generating a current intermediate feature map reflecting an intermediate target pose corresponding to a corresponding intermediate generation unit using the previous intermediate feature map
Fashion simulation device.
제 5항에 있어서,
상기 복수의 중간 생성 유닛 각각은,
상기 이전 중간 특징 맵에 포함된 이전 중간 공간 특징을 포즈 처리하여 포즈 코드를 획득하고, 상기 이전 중간 특징 맵에 포함된 이전 중간 이미지 특징을 상기 포즈 코드에 반영하여 현재 중간 공간 특징을 출력하는 포즈 처리부;를 포함하는
패션 시뮬레이션 장치.
According to claim 5,
Each of the plurality of intermediate generating units,
A pose processing unit that obtains a pose code by pose processing a previous intermediate spatial feature included in the previous intermediate feature map, and outputs a current intermediate spatial feature by reflecting a previous intermediate image feature included in the previous intermediate feature map to the pose code. including
Fashion simulation device.
제 6항에 있어서,
상기 복수의 중간 생성 유닛 각각은,
상기 이전 중간 특징 맵에 포함된 이전 중간 이미지 특징을 이미지 처리하여 이미지 코드를 획득하고, 상기 이미지 코드에 상기 포즈 코드를 반영하여 현재 중간 이미지 특징을 출력하는 이미지 처리부;를 더 포함하는
패션 시뮬레이션 장치.
According to claim 6,
Each of the plurality of intermediate generating units,
An image processing unit that obtains an image code by image processing a previous intermediate image feature included in the previous intermediate feature map, and outputs a current intermediate image feature by reflecting the pose code to the image code.
Fashion simulation device.
제 1항에 있어서,
상기 원본 이미지로부터 얼굴을 탐지하여 얼굴 이미지를 생성하고, 상기 얼굴 이미지, 원본 얼굴 포즈 정보 및 타겟 얼굴 포즈 정보를 이용하여 얼굴 포즈 변환 이미지를 생성하는 얼굴 변환 모델;을 더 포함하고,
상기 제어부는,
상기 최종 이미지에 상기 얼굴 포즈 변환 이미지를 추가적으로 합성하여 2차 최종 이미지를 생성하는
패션 시뮬레이션 장치.
According to claim 1,
A face transformation model for generating a face image by detecting a face from the original image, and generating a face pose transformation image using the face image, original face pose information, and target face pose information;
The control unit,
Generating a second final image by additionally synthesizing the face pose conversion image to the final image
Fashion simulation device.
인코더가, 원본 이미지, 원본 포즈 정보 및 타겟 포즈 정보를 이용하여, 이미지 특징 및 공간 특징을 포함하는 특징 맵을 추출하는 단계;
디코더가, 상기 특징 맵을 이용하여 포즈 변환 이미지를 생성하는 단계;
스타일 강화 모델이, 상기 원본 이미지로부터 스타일 코드를 추출하고, 상기 스타일 코드 및 상기 특징 맵을 이용하여 스타일 강화 이미지를 생성하는 단계; 및
제어부가, 상기 포즈 변환 이미지 및 상기 스타일 강화 이미지를 합성하여 최종 이미지를 생성하는 단계;를 포함하는
패션 시뮬레이션 방법.
extracting, by an encoder, a feature map including image features and spatial features using the original image, original pose information, and target pose information;
generating, by a decoder, a pose conversion image using the feature map;
extracting, by a style enhancement model, a style code from the original image, and generating a style enhancement image using the style code and the feature map; and
A controller generating a final image by synthesizing the pose conversion image and the style enhancement image;
Fashion simulation method.
제 9항에 있어서,
상기 원본 이미지로부터 스타일 코드를 추출하고, 상기 스타일 코드 및 상기 특징 맵을 이용하여 스타일 강화 이미지를 생성하는 단계는,
상기 원본 이미지로부터 색상, 질감 및 패턴에 대한 특징을 포함하는 상기 스타일 코드를 추출하는 단계;
상기 특징 맵에 상기 스타일 코드를 매핑하여 업샘플링을 함으로써 상기 스타일 강화 이미지를 생성하는 단계;를 포함하는
패션 시뮬레이션 방법.
According to claim 9,
The step of extracting a style code from the original image and generating a style enhanced image using the style code and the feature map,
extracting the style code including color, texture, and pattern features from the original image;
generating the style-enhanced image by upsampling by mapping the style code to the feature map;
Fashion simulation method.
제 10항에 있어서,
상기 특징 맵에 상기 스타일 코드를 매핑하여 업샘플링을 함으로써 상기 스타일 강화 이미지를 생성하는 단계는,
복수의 업샘플링 레이어 각각이, 이전 업샘플링 레이어에서 출력된 강화 맵에 상기 스타일 코드를 매핑하여 현재 강화 맵을 출력하는 단계;를 포함하는
패션 시뮬레이션 방법.
According to claim 10,
The step of generating the style enhanced image by upsampling by mapping the style code to the feature map,
Each of the plurality of upsampling layers outputs a current enhancement map by mapping the style code to an enhancement map output from a previous upsampling layer.
Fashion simulation method.
제 9항에 있어서,
상기 이미지 특징 및 공간 특징을 포함하는 특징 맵을 추출하는 단계는,
상기 원본 포즈 정보 및 상기 타겟 포즈 정보 사이의 중간 포즈에 대한 중간 특징 맵을 생성하는 단계;를 포함하는
패션 시뮬레이션 방법.
According to claim 9,
The step of extracting a feature map including the image feature and spatial feature,
Generating an intermediate feature map for an intermediate pose between the original pose information and the target pose information; comprising
Fashion simulation method.
제 12항에 있어서,
상기 중간 특징 맵을 생성하는 단계는,
복수의 중간 생성 유닛 각각이, 이전 중간 특징 맵을 수신하고, 상기 이전 중간 특징 맵을 이용하여 해당 중간 생성 유닛에 대응하는 중간 타겟 포즈가 반영된 현재 중간 특징 맵을 생성하는 단계;를 포함하는
패션 시뮬레이션 방법.
According to claim 12,
Generating the intermediate feature map,
Receiving, by each of a plurality of intermediate generating units, a previous intermediate feature map, and generating a current intermediate feature map in which an intermediate target pose corresponding to the corresponding intermediate generating unit is reflected by using the previous intermediate feature map.
Fashion simulation method.
제 13항에 있어서,
상기 복수의 중간 생성 유닛 각각이 현재 중간 특징 맵을 생성하는 단계는,
상기 이전 중간 특징 맵에 포함된 이전 중간 공간 특징을 포즈 처리하여 포즈 코드를 획득하고, 상기 이전 중간 특징 맵에 포함된 이전 중간 이미지 특징을 상기 포즈 코드에 반영하여 현재 중간 공간 특징을 출력하는 단계;를 포함하는
패션 시뮬레이션 방법.
According to claim 13,
Generating, by each of the plurality of intermediate generating units, a current intermediate feature map,
Pose-processing a previous intermediate spatial feature included in the previous intermediate feature map to obtain a pose code, and outputting a current intermediate spatial feature by reflecting a previous intermediate image feature included in the previous intermediate feature map to the pose code; containing
Fashion simulation method.
제 14항에 있어서,
상기 복수의 중간 생성 유닛 각각이 현재 중간 특징 맵을 생성하는 단계는,
상기 이전 중간 특징 맵에 포함된 이전 중간 이미지 특징을 이미지 처리하여 이미지 코드를 획득하고, 상기 이미지 코드에 상기 포즈 코드를 반영하여 현재 중간 이미지 특징을 출력하는 단계;를 더 포함하는
패션 시뮬레이션 방법.
According to claim 14,
Generating, by each of the plurality of intermediate generating units, a current intermediate feature map,
Image processing of previous intermediate image features included in the previous intermediate feature map to obtain an image code, and outputting a current intermediate image feature by reflecting the pose code to the image code
Fashion simulation method.
제 9항에 있어서,
얼굴 변환 모델이, 상기 원본 이미지로부터 얼굴을 탐지하여 얼굴 이미지를 생성하고, 상기 얼굴 이미지, 원본 얼굴 포즈 정보 및 타겟 얼굴 포즈 정보를 이용하여 얼굴 포즈 변환 이미지를 생성하는 단계; 및
상기 제어부가, 상기 최종 이미지에 상기 얼굴 포즈 변환 이미지를 추가적으로 합성하여 2차 최종 이미지를 생성하는 단계;를 더 포함하는
패션 시뮬레이션 방법.
According to claim 9,
generating, by a face conversion model, a face image from the original image by detecting a face, and generating a face pose conversion image using the face image, original face pose information, and target face pose information; and
Further comprising, by the controller, generating a secondary final image by additionally combining the face pose conversion image with the final image
Fashion simulation method.
KR1020210146116A 2021-10-28 2021-10-28 Fashion simulation device and method KR20230061161A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210146116A KR20230061161A (en) 2021-10-28 2021-10-28 Fashion simulation device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210146116A KR20230061161A (en) 2021-10-28 2021-10-28 Fashion simulation device and method

Publications (1)

Publication Number Publication Date
KR20230061161A true KR20230061161A (en) 2023-05-08

Family

ID=86381871

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210146116A KR20230061161A (en) 2021-10-28 2021-10-28 Fashion simulation device and method

Country Status (1)

Country Link
KR (1) KR20230061161A (en)

Similar Documents

Publication Publication Date Title
CN111275518B (en) Video virtual fitting method and device based on mixed optical flow
US11232286B2 (en) Method and apparatus for generating face rotation image
WO2022002032A1 (en) Image-driven model training and image generation
CN110599395B (en) Target image generation method, device, server and storage medium
CN110706302B (en) System and method for synthesizing images by text
US8861800B2 (en) Rapid 3D face reconstruction from a 2D image and methods using such rapid 3D face reconstruction
CN111402143A (en) Image processing method, device, equipment and computer readable storage medium
CN110084193B (en) Data processing method, apparatus, and medium for face image generation
CN112733797B (en) Method, device and equipment for correcting sight of face image and storage medium
CN111583399B (en) Image processing method, device, equipment, medium and electronic equipment
CN115205949B (en) Image generation method and related device
CN112036260B (en) Expression recognition method and system for multi-scale sub-block aggregation in natural environment
CN112528902B (en) Video monitoring dynamic face recognition method and device based on 3D face model
CN111462274A (en) Human body image synthesis method and system based on SMP L model
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
EP4292059A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN116740261A (en) Image reconstruction method and device and training method and device of image reconstruction model
WO2021052103A1 (en) Image generation method and apparatus, and computer
JP7463186B2 (en) Information processing device, information processing method, and program
US20220180597A1 (en) Image processing apparatus, image processing method, and program
KR102409988B1 (en) Method and apparatus for face swapping using deep learning network
US20230104702A1 (en) Transformer-based shape models
KR20230061161A (en) Fashion simulation device and method
BR et al. Machine Learning Application for Evidence Image Enhancement
WO2023228717A1 (en) Computer program, processing method, and processing device