KR102652199B1

KR102652199B1 - 포즈추정 기반의 영상 컨텐츠 생성 시스템 및 방법

Info

Publication number: KR102652199B1
Application number: KR1020230134807A
Authority: KR
Inventors: 백하정
Original assignee: 주식회사 패션에이드
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2024-03-29

Abstract

포즈추정 기반의 영상 컨텐츠 생성 시스템 및 방법이 제공된다. 본 발명의 일 실시예에 따른 포즈추정 기반의 영상 컨텐츠 생성 시스템은, 사용자로부터 의상착용 이미지를 입력 받는 이미지 입력부; 상기 사용자로부터 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역을 입력 받고, 상기 사용자로부터 상기 신체영역에 대한 변경포즈를 드래그 앤 드롭(drag-and-drop) 방식으로 입력 받아 추정하는 포즈 추정부; GAN(Generative Adversarial Network) 모델과 Diffusion 모델을 이용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 포즈 변경부; 및 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 과정에서 복수 개의 연속적인 이미지를 추출하고, 추출된 상기 복수 개의 연속적인 이미지로부터 영상 컨텐츠를 생성하는 영상 컨텐츠 생성부를 포함할 수 있다.

Description

포즈추정 기반의 영상 컨텐츠 생성 시스템 및 방법{SYSTEM AND METHOD FOR GENERATING VIDEO CONTENT BASED ON POSE ESTIMATION}

본 발명의 실시예들은 포즈추정 기반의 영상 컨텐츠 생성 기술과 관련된다.

일반적으로, 의류, 모자, 신발 등과 같은 패션 아이템에 대한 사용자(소비자)의 구매력을 고취시키기 위해서는 피팅 모델을 섭외한 후 피팅 모델이 패션 아이템을 장착하고 있는 상태를 촬영하는 과정이 필수적이다. 그러나, 패션 아이템의 종류 및 개수가 방대함에 따라 모든 패션 아이템마다 피팅 모델을 섭외하여 착용 이미지를 촬영하는 것은 현실적으로 불가능하다.

이에, 패션 아이템이 마네킹에 장착된 상태에서 이를 촬영하거나, 아바타에 패션 아이템을 합성하여 착용 이미지를 획득하는 방법이 주로 사용되고 있다. 그러나, 마네킹의 착용 이미지는 피팅 모델의 착용 이미지에 비해 패션 아이템에 대한 사용자의 구매력 고취에 한계가 있다. 또한, 아바타의 착용 이미지는 사용자로 하여금 부자연스러움을 불러일으키며, 이는 곧 패션 아이템에 대한 사용자의 구매력 저하로 이어진다. 또한, 피팅 모델의 이미지를 패션 아이템에 합성하여 가상피팅하는 경우도 있으나, 이 경우 사용자가 원하는 다양한 포즈로의 변환이 어려운 문제점이 있다. 나아가, 이와 같이 가상피팅된 2차원 이미지의 경우 패션 아이템의 착용감을 표현하는 데 있어 한계가 있다.

따라서, 피팅 모델의 섭외 비용을 절감하면서도 다양한 포즈와 패션 아이템의 착용감을 표현 가능한 영상 컨텐츠를 자동으로 생성할 수 있는 방안이 요구된다.

한국등록특허공보 제10-2486094호(2023.01.04)

본 발명의 실시예들은 사용자로부터 입력된 의상착용 이미지 내 포즈를 원하는 형태의 포즈를 자동으로 변환한 후 이를 영상 컨텐츠로 구현함으로써 패션 아이템의 착용감을 보다 실감나게 표현하기 위한 것이다.

예시적인 실시예에 따르면, 사용자로부터 의상착용 이미지를 입력 받는 이미지 입력부; 상기 사용자로부터 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역을 입력 받고, 상기 사용자로부터 상기 신체영역에 대한 변경포즈를 드래그 앤 드롭(drag-and-drop) 방식으로 입력 받아 추정하는 포즈 추정부; GAN(Generative Adversarial Network) 모델과 Diffusion 모델을 이용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 포즈 변경부; 및 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 과정에서 복수 개의 연속적인 이미지를 추출하고, 추출된 상기 복수 개의 연속적인 이미지로부터 영상 컨텐츠를 생성하는 영상 컨텐츠 생성부를 포함하는, 포즈추정 기반의 영상 컨텐츠 생성 시스템이 제공된다.

상기 포즈 추정부는, 설정된 인공지능 모델을 통해 상기 의상착용 이미지 내 패션 아이템 영역과 배경 영역을 자동으로 분류하고, 상기 사용자로부터 마스킹(masking) 방식을 통해 상기 패션 아이템 영역 중 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역을 입력 받을 수 있다.

상기 포즈 추정부는, 상기 신체영역을 변경영역으로 분류하고, 상기 패션 아이템 영역 중 상기 변경영역을 제외한 나머지 영역과 상기 배경 영역을 비-변경영역으로 분류하며, 상기 포즈 변경부는, 상기 변경영역에 대해서만 포즈변경을 수행할 수 있다.

상기 포즈 추정부는, 상기 사용자로부터 상기 신체영역에 대한 드래그 앤 드롭 동작을 입력 받고, 상기 드래그 앤 드롭 동작에서의 시작점과 끝점을 추출한 후 상기 시작점과 상기 끝점을 기초로 상기 신체영역에 대한 변경포즈를 추정할 수 있다.

상기 포즈 추정부는, 데이터베이스에 기 저장된 복수 개의 학습 데이터 중 상기 신체영역에 대응되는 신체영역을 포함하는 학습 데이터들을 선별하고, 선별된 상기 학습 데이터들과 상기 드래그 앤 드롭 동작에서의 시작점과 끝점을 각각 비교한 후 기준치 이상의 유사도를 갖는 학습 데이터를 기초로 상기 신체영역에 대한 변경포즈를 추정할 수 있다.

상기 포즈 변경부는, 상기 복수 개의 학습 데이터 중 상기 변경포즈에 대응되는 학습 데이터 내 신체영역에 대한 속성 정보를 토대로 상기 GAN 모델과 Diffusion 모델을 적용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경할 수 있다.

상기 영상 컨텐츠 생성 시스템은, 데이터베이스에 기 저장된 복수 개의 학습 데이터를 기초로 상기 의상착용 이미지 내 패션 아이템의 스타일 및 소재를 추론하는 패션 아이템 추론부를 더 포함하며, 상기 영상 컨텐츠 생성부는, 추론된 상기 패션 아이템의 스타일 및 소재를 고려하여 상기 영상 컨텐츠를 생성할 수 있다.

상기 영상 컨텐츠 생성부는, 추론된 상기 패션 아이템의 스타일 및 소재에 따라 상기 영상 컨텐츠 내에서 상기 패션 아이템의 신축 정도, 빛의 반사정도 및 그림자 효과 중 적어도 하나를 변화시킬 수 있다.

상기 영상 컨텐츠 생성 시스템은, 상기 의상착용 이미지 내 노출 신체영역을 결정하고, 상기 의상착용 이미지 내 패션 아이템의 종류, 스타일 및 컬러를 분석하며, 상기 패션 아이템의 분석결과 및 데이터베이스에 기 저장된 학습 데이터들을 기초로 가상의 휴먼모델을 추정한 후 상기 휴먼모델을 상기 의상착용 이미지 내 노출 신체영역에 합성하는 휴먼모델 합성부를 더 포함할 수 있다.

상기 휴먼모델 합성부는, 상기 패션 아이템의 종류, 스타일 및 컬러에 따라 상기 패션 아이템을 기 분류된 복수 개의 카테고리 중 하나로 분류하고, 분류된 상기 카테고리에 대응되는 학습 데이터를 토대로 상기 휴먼모델을 추정할 수 있다.

상기 휴먼모델 합성부는, 상기 사용자로부터 특정 브랜드(brand) 정보를 입력 받고, 분류된 상기 카테고리에 대응되는 학습 데이터 중 상기 브랜드 정보에 대응되는 모델 이미지에 더 큰 가중치를 부여하여 상기 휴먼모델을 추정할 수 있다.

다른 예시적인 실시예에 따르면, 이미지 입력부에서, 사용자로부터 의상착용 이미지를 입력 받는 단계; 포즈 추정부에서, 상기 사용자로부터 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역을 입력 받는 단계; 상기 포즈 추정부에서, 상기 사용자로부터 상기 신체영역에 대한 변경포즈를 드래그 앤 드롭 방식으로 입력 받아 추정하는 단계; 포즈 변경부에서, GAN 모델과 Diffusion 모델을 이용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 단계; 영상 컨텐츠 생성부에서, 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 과정에서 복수 개의 연속적인 이미지를 추출하는 단계; 및 상기 영상 컨텐츠 생성부에서, 추출된 상기 복수 개의 연속적인 이미지로부터 영상 컨텐츠를 생성하는 단계를 포함하는, 포즈추정 기반의 영상 컨텐츠 생성 방법이 제공된다.

상기 신체영역을 입력 받는 단계는, 설정된 인공지능 모델을 통해 상기 의상착용 이미지 내 패션 아이템 영역과 배경 영역을 자동으로 분류하고, 상기 사용자로부터 마스킹(masking) 방식을 통해 상기 패션 아이템 영역 중 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역을 입력 받을 수 있다.

상기 영상 컨텐츠 생성 방법은, 상기 신체영역을 입력 받는 단계 이후, 상기 포즈 추정부에서, 상기 신체영역을 변경영역으로 분류하는 단계; 및 상기 포즈 추정부에서, 상기 패션 아이템 영역 중 상기 변경영역을 제외한 나머지 영역과 상기 배경 영역을 비-변경영역으로 분류하는 단계를 더 포함하며, 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 단계는, 상기 변경영역에 대해서만 포즈변경을 수행할 수 있다.

상기 신체영역에 대한 변경포즈를 추정하는 단계는, 상기 사용자로부터 상기 신체영역에 대한 드래그 앤 드롭 동작을 입력 받고, 상기 드래그 앤 드롭 동작에서의 시작점과 끝점을 추출한 후 상기 시작점과 상기 끝점을 기초로 상기 신체영역에 대한 변경포즈를 추정할 수 있다.

상기 신체영역에 대한 변경포즈를 추정하는 단계는, 데이터베이스에 기 저장된 복수 개의 학습 데이터 중 상기 신체영역에 대응되는 신체영역을 포함하는 학습 데이터들을 선별하고, 선별된 상기 학습 데이터들과 상기 드래그 앤 드롭 동작에서의 시작점과 끝점을 각각 비교한 후 기준치 이상의 유사도를 갖는 학습 데이터를 기초로 상기 신체영역에 대한 변경포즈를 추정할 수 있다.

상기 신체영역의 포즈를 상기 변경포즈로 변경하는 단계는, 상기 복수 개의 학습 데이터 중 상기 변경포즈에 대응되는 학습 데이터 내 신체영역에 대한 속성 정보를 토대로 상기 GAN 모델과 Diffusion 모델을 적용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경할 수 있다.

상기 영상 컨텐츠 생성 방법은, 상기 영상 컨텐츠를 생성하는 단계 이전에, 패션 아이템 추론부에서, 데이터베이스에 기 저장된 복수 개의 학습 데이터를 기초로 상기 의상착용 이미지 내 패션 아이템의 스타일 및 소재를 추론하는 단계를 더 포함하며, 상기 영상 컨텐츠를 생성하는 단계는, 추론된 상기 패션 아이템의 스타일 및 소재를 고려하여 상기 영상 컨텐츠를 생성할 수 있다.

상기 영상 컨텐츠를 생성하는 단계는, 추론된 상기 패션 아이템의 스타일 및 소재에 따라 상기 영상 컨텐츠 내에서 상기 패션 아이템의 신축 정도, 빛의 반사정도 및 그림자 효과 중 적어도 하나를 변화시킬 수 있다.

상기 영상 컨텐츠 생성 방법은, 상기 의상착용 이미지를 입력 받는 단계 이후, 휴먼모델 합성부에서, 상기 의상착용 이미지 내 노출 신체영역을 결정하는 단계; 상기 휴먼모델 합성부에서, 상기 의상착용 이미지 내 패션 아이템의 종류, 스타일 및 컬러를 분석하는 단계; 상기 휴먼모델 합성부에서, 상기 패션 아이템의 분석결과 및 데이터베이스에 기 저장된 학습 데이터들을 기초로 가상의 휴먼모델을 추정하는 단계; 및 상기 휴먼모델 합성부에서, 상기 휴먼모델을 상기 의상착용 이미지 내 노출 신체영역에 합성하는 단계를 더 포함할 수 있다.

상기 휴먼모델을 추정하는 단계는, 상기 패션 아이템의 종류, 스타일 및 컬러에 따라 상기 패션 아이템을 기 분류된 복수 개의 카테고리 중 하나로 분류하고, 분류된 상기 카테고리에 대응되는 학습 데이터를 토대로 상기 휴먼모델을 추정할 수 있다.

상기 휴먼모델을 추정하는 단계는, 상기 사용자로부터 특정 브랜드(brand) 정보를 입력 받고, 분류된 상기 카테고리에 대응되는 학습 데이터 중 상기 브랜드 정보에 대응되는 모델 이미지에 더 큰 가중치를 부여하여 상기 휴먼모델을 추정할 수 있다.

본 발명의 실시예들에 따르면, 사용자로부터 입력된 의상착용 이미지 내 포즈를 원하는 형태의 포즈를 자동으로 변환하도록 함으로써, 고정된 포즈에서 가상 이미지가 일률적으로 합성되는 기존의 가상피팅 기술에 비해 패션 아이템의 판매를 보다 극대화시킬 수 있다.

또한, 본 발명의 실시예들에 따르면, 마스킹 방식 및 드래그 앤 드롭 방식을 통해 사용자가 변경하고자 하는 신체영역 및 상기 신체영역의 변경포즈를 직접 입력할 수 있도록 함으로써, 보다 다양한 형태의 포즈변경이 가능해진다.

또한, 본 발명의 실시예들에 따르면, 의상착용 이미지 내 패션 아이템의 스타일 및 소재를 추론하고 이를 기반으로 영상 컨텐츠를 생성할 수 있도록 함으로써, 영상 컨텐츠 내에서 패션 아이템의 스타일 및 소재에 따른 신축 정도, 빛의 반사정도, 그림자 효과 등을 보다 현실감 있게 표현할 수 있다.

도 1은 본 발명의 일 실시예에 따른 포즈추정 기반의 영상 컨텐츠 생성 시스템의 상세 구성을 나타낸 블록도
도 2는 본 발명의 일 실시예에 따른 의상착용 이미지의 예시
도 3은 본 발명의 일 실시예에 따른 의상착용 이미지의 예시
도 4는 본 발명의 일 실시예에 따른 휴먼모델 합성부에서 가상의 휴먼모델을 생성하여 합성한 결과를 나타낸 예시
도 5는 본 발명의 일 실시예에 따른 포즈 추정부에서 변경하고자 하는 신체영역 및 신체영역에 대한 변경포즈를 입력 받는 과정을 나타낸 예시
도 6은 본 발명의 일 실시예에 따른 포즈 추정부에서 변경영역과 비-변경영역을 분류하는 과정을 나타낸 예시
도 7은 본 발명의 일 실시예에 따른 포즈 변경부에서 신체영역의 포즈를 변경포즈로 변경한 결과를 나타낸 예시
도 8은 본 발명의 일 실시예에 따른 영상 컨텐츠 생성부에서 복수 개의 연속적인 이미지로부터 영상 컨텐츠를 생성하는 과정을 나타낸 예시
도 9는 본 발명의 일 실시예에 따른 영상 컨텐츠 생성부에서 복수 개의 연속적인 이미지로부터 영상 컨텐츠를 생성하는 과정을 나타낸 예시
도 10은 본 발명의 일 실시예에 따른 포즈추정 기반의 영상 컨텐츠 생성 방법을 설명하기 위한 흐름도
도 11은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

도 1은 본 발명의 일 실시예에 따른 포즈추정 기반의 영상 컨텐츠 생성 시스템(100)의 상세 구성을 나타낸 블록도이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 포즈추정 기반의 영상 컨텐츠 생성 시스템(100)은 네트워크(미도시)를 통해 사용자 단말(200)과 연결될 수 있다.

사용자 단말(200)은 사용자가 소지하는 단말로서, 예를 들어 데스크탑, 노트북, 태블릿 컴퓨터, 스마트폰, PDA, 스마트 워치와 같은 웨어러블 디바이스 등이 될 수 있다. 후술할 바와 같이, 사용자는 사용자 단말(200)을 통해 의상착용 이미지를 입력하고, 사용자 단말(200)을 통해 변경하고자 하는 신체영역 및 변경포즈를 입력할 수 있다.

도 1을 참조하면, 이미지 입력부(102), 휴먼모델 합성부(104), 포즈 추정부(106), 포즈 변경부(108), 패션 아이템 추론부(110) 영상 컨텐츠 생성부(112) 및 데이터베이스(150)를 포함한다.

이미지 입력부(102)는 사용자로부터 의상착용 이미지를 입력 받는다. 본 실시예들에 있어서, 의상착용 이미지는 패션 아이템이 장착된 상태의 이미지를 의미한다. 여기서, 패션 아이템은 예를 들어, 의류, 모자, 신발 등이 될 수 있다. 의상착용 이미지는 상기 패션 아이템을 장착하고 있는 마네킹 이미지, 상기 패션 아이템을 장착하고 있는 아바타 이미지, 상기 패션 아이템을 장착하고 있는 실제 모델 이미지 등이 될 수 있다. 사용자는 사용자 단말(200)을 통해 의상착용 이미지의 업로드를 위한 온라인 플랫폼에 접속할 수 있으며, 상기 온라인 플랫폼에 의상착용 이미지를 업로드할 수 있다.

도 2 및 도 3은 본 발명의 일 실시예에 따른 의상착용 이미지의 예시이다. 도 2는 패션 아이템을 장착하고 있는 마네킹 이미지의 예시이며, 도 3은 패션 아이템을 장착하고 있는 실제 모델 이미지의 예시이다.

도 2를 참조하면, 마네킹 이미지는 신체 영역의 일부 누락 또는 부자연스러움이 있을 수 있으며 이에 따라 실제 모델 이미지에 비해 패션 아이템에 대한 사용자의 구매력 고취에 한계가 있다.

또한, 도 3을 참조하면, 실제 모델 이미지는 마네킹 이미지 또는 아바타 이미지에 비해 자연스러운 장점이 있으나, 패션 아이템마다 촬영을 위한 실제 모델을 섭외하는 데 많은 시간과 비용이 소요된다.

또한, 마네킹 이미지, 아바타 이미지 및 실제 모델 이미지는 모두 고정된 포즈를 취하고 있어 다양한 포즈를 통해 패션 아이템의 착용감을 표현하는 데 한계가 있다.

다시 도 1로 돌아오면, 휴먼모델 합성부(104)는 의상착용 이미지 내 노출 신체영역을 결정하고, 상기 의상착용 이미지 내 패션 아이템의 분석결과 및 데이터베이스(150)에 기 저장된 학습 데이터들을 기초로 가상의 휴먼모델을 추정한 후 상기 휴먼모델을 상기 의상착용 이미지 내 노출 신체영역에 합성한다.

먼저, 휴먼모델 합성부(104)는 의상착용 이미지 내 노출 신체영역을 결정할 수 있다. 일 예시로서, 휴먼모델 합성부(104)는 데이터베이스(150)에 저장된 학습 데이터와 의상착용 이미지를 비교하여 의상착용 이미지와의 유사도가 기준치 이상인 학습 데이터를 선별하고, 선별된 학습 데이터 내 신체 영역으로부터 의상착용 이미지 내 노출 신체영역(예를 들어, 손, 팔, 다리, 얼굴 영역 등)을 결정할 수 있다. 이때, 휴먼모델 합성부(104)는 SVM(Support vector machine) 등과 같이 널리 알려진 이미지 분류 기법, 이미지 분석 기법을 이용하여 의상착용 이미지 내 노출 신체영역을 결정할 수 있다.

다음으로, 휴먼모델 합성부(104)는 상기 패션 아이템의 종류, 스타일 및 컬러를 분석하여 상기 패션 아이템의 판매가 가장 극대화될 것으로 예상되는 가상의 휴먼모델을 추정할 수 있다. 이를 위해, 휴먼모델 합성부(104)는 상기 패션 아이템의 스타일 및 컬러에 따라 상기 패션 아이템을 기 분류된 복수 개의 카테고리 중 하나로 분류할 수 있다. 여기서, 패션 아이템의 종류는 예를 들어, 남성 자켓, 남성 바지, 여성 원피스, 여성 블라우스, 운동화, 구두, 캐주얼 모자 등이 될 수 있다. 또한, 패션 아이템의 스타일은 예를 들어, 캐주얼(casual), 스트릿(street), 빈티지(vintage), 페미닌(feminine), 댄디(dandy), 클래식(classic), 매니시(menish), 엘레강스(elegance), 에스닉(ethnic), 모던(modern), 내추럴(natural), 로맨틱(romantic), 스포티(sporty), 뉴트로(newtro), 힙합(hiphop), 맥시멈(maximum), 펑크(punk) 등이 될 수 있다. 또한, 패션 아이템의 컬러는 예를 들어, 화이트(white), 블랙(black), 블루(blue), 레드(red) 등이 될 수 있다. 일 예시로서, 휴먼모델 합성부(104)는 패션 아이템을 상의/아웃도어/남성 정장/댄디/블랙 등의 카테고리로 분류할 수 있다. 다른 예시로서, 휴먼모델 합성부(104)는 패션 아이템을 상의/아웃도어/여성 블라우스/페미닌/화이트 등의 카테고리로 분류할 수 있다.

이후, 휴먼모델 합성부(104)는 데이터베이스(150)에 저정된 학습 데이터들 중 상기 분류된 카테고리에 대응되는 학습 데이터를 선별할 수 있다. 데이터베이스(150)에 저장된 학습 데이터들은 예를 들어, 광고 페이지 또는 판매 페이지에 삽입된 이력이 있는 착용 이미지로서, 복수 개의 카테고리 중 하나로 분류되어 있을 수 있다. 또한, 데이터베이스(150)에는 각 학습 데이터별로 광고 또는 판매효과에 관한 정보(예를 들어, 광고 페이지에 삽입된 시간 및 해당 시간동안 발생된 사용자의 클릭 수)가 저장되어 있을 수 있다.

휴먼모델 합성부(104)는 상기 분류된 카테고리에 대응되는 학습 데이터 중 정량적인 판매효과(또는 광고효과)가 가장 높은 것으로 나타난 학습 데이터를 기반으로 휴먼모델을 추정할 수 있다. 일 예시로서, 휴먼모델 합성부(104)는 상기 분류된 카테고리에 대응되는 학습 데이터 중 광고 페이지에 삽입된 시간 대비 광고 페이지의 클릭 수가 기준치 이상 발생된 학습 데이터를 기반으로 휴먼모델을 추정할 수 있다. 휴먼모델 합성부(104)는 정량적인 판매효과가 가장 높은 것으로 나타난 학습 데이터의 얼굴 형상, 신체부위의 특징, 피부톤, 표정 및 헤어 스타일 중 적어도 하나를 포함하는 속성 정보를 학습하고, 학습된 속성 정보를 기반으로 의상착용 이미지 내 신체영역에 맞는 휴먼모델을 추정할 수 있다. 일 예시로서, 광고 페이지에 삽입된 시간 대비 광고 페이지의 클릭 수가 기준치 이상 발생된 제1 학습 데이터의 속성 정보가 20대 초반 계란형 얼굴 형상, 화이트 피부톤, 웃는 표정, 검은색 긴머리의 한국인 여성인 경우, 휴먼모델 합성부(104)는 상기 학습된 속성 정보에 대응되면서 의상착용 이미지 내 신체 영역에 맞는 한국인 여성의 휴먼모델을 실시간으로 생성할 수 있다.

또한, 휴먼모델 합성부(104)는 GAN(Generative Adversarial Network) 모델과 Diffusion 모델을 이용하여 각 속성 정보를 보정하여 상기 휴먼모델을 추정할 수 있다. 휴먼모델 합성부(104)는 예를 들어, 광고 페이지에 삽입된 시간 대비 광고 페이지의 클릭 수가 기준치 이상 발생된 복수 개의 학습 데이터에 대응되는 속성정보 각각을 보정해 가면서 보정된 속성정보와의 유사도가 가장 높은 학습 데이터를 포함하는 광고 페이지의 광고 수익률(ROAS : Return On Ad Spend)을 상호 비교한 후 상기 광고 수익률이 가장 높았을 때의 속성 정보로 휴먼모델을 추정할 수 있다.

이때, 휴먼모델 합성부(104)는 상기 사용자로부터 특정 브랜드(brand) 정보를 입력 받고, 분류된 상기 카테고리에 대응되는 학습 데이터 중 상기 브랜드 정보에 대응되는 모델 이미지에 더 큰 가중치를 부여하여 상기 휴먼모델을 추정할 수도 있다. 각 브랜드마다 선호하는 모델 또는 판매효과가 높은 모델이 있을 수 있으므로, 휴먼모델 합성부(104)는 휴먼모델을 추정하는 과정에서 브랜드 정보를 고려하여 상기 브랜드 정보에 최적화된 휴먼모델을 추정할 수 있다. 일 예시로서, A 브랜드의 경우 검은색 긴 생머리의 여성모델의 판매효과가 가장 높은 경우, 휴먼모델 합성부(104)는 검은색 긴 생머리의 여성모델이 출력될 수 있도록 상기 휴먼모델을 추정할 수 있다. 다른 예시로서, B 브랜드의 경우 구릿빛 피부톤의 흑인 여성모델의 판매효과가 가장 높은 경우, 휴먼모델 합성부(104)는 구릿빛 피부톤의 흑인 여성모델이 출력될 수 있도록 상기 휴먼모델을 추정할 수 있다.

도 4는 본 발명의 일 실시예에 따른 휴먼모델 합성부(104)에서 가상의 휴먼모델을 생성하여 합성한 결과를 나타낸 예시이다. 도 4의 (a)는 가상의 휴먼모델을 합성하기 전 의상착용 이미지를 나타내며, 도 4의 (b)는 가상의 휴먼모델을 합성한 후 의상착용 이미지를 나타낸다.

도 4에 도시된 바와 같이, 휴먼모델 합성부(104)는 사용자로부터 입력된 마네킹 이미지에 가상의 휴먼모델을 합성할 수 있다. 이와 같이, 휴먼모델 합성부(104)에 의해 휴먼모델이 의상착용 이미지에 합성되는 경우, 포즈 추정부(106)는 사용자로부터 의상착용 이미지 내에서 변경하고자 하는 신체영역 및 상기 신체영역에 대한 변경포즈를 입력 받을 수 있다. 그러나, 휴먼모델 합성부(104)가 의상착용 이미지에 가상의 휴먼모델을 반드시 합성하여야 하는 것은 아니며, 포즈 추정부(106)는 사용자로부터 입력된 의상착용 이미지를 그대로 활용하여 후술할 포즈 추정을 수행할 수도 있다.

구체적으로, 포즈 추정부(106)는 사용자로부터 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역을 입력 받고, 상기 사용자로부터 상기 신체영역에 대한 변경포즈를 드래그 앤 드롭(drag-and-drop) 방식으로 입력 받아 추정할 수 있다.

도 5는 본 발명의 일 실시예에 따른 포즈 추정부(106)에서 변경하고자 하는 신체영역 및 신체영역에 대한 변경포즈를 입력 받는 과정을 나타낸 예시이다. 도 5의 (a)는 포즈 추정의 대상이 되는 의상착용 이미지를 나타내며, 도 5의 (b)는 변경하고자 하는 신체영역 및 신체영역에 대한 변경포즈를 사용자로부터 입력 받는 과정을 나타낸다.

도 5의 (a)를 참조하면, 의상착용 이미지 내 최초의 포즈는 오른쪽 손을 바지 주머니에 넣고 있는 상태를 나타낸다.

도 5의 (b)를 참조하면, 포즈 추정부(106)는 사용자로부터 변경하고자 하는 신체영역(A)을 입력 받을 수 있다. 이때, 포즈 추정부(106)는 마스킹(masking) 방식을 통해 사용자로부터 변경하고자 하는 신체영역(A)을 입력 받을 수 있다. 사용자는 사용자 단말(200)을 통해 변경하고자 하는 신체영역(A)을 마스킹할 수 있다. 도 5를 참조하면, 사용자는 사용자 단말(200)을 통해 의상착용 이미지 내 손 영역을 마스킹할 수 있으며, 이에 따라 포즈 추정부(106)는 변경하고자 하는 신체영역(A)을 손 영역으로 결정할 수 있다. 포즈 추정부(106)는 사용자가 마스킹할 때마다 마스킹된 영역의 좌표를 결정할 수 있으며, 결정된 좌표를 기반으로 변경하고자 하는 신체영역(A)을 특정할 수 있다. 이때, 마스킹된 영역이 아닌 나머지 영역은 후술할 포즈변경 과정에서 영향을 받지 않아 변경되지 않는다. 또한, 후술할 바와 같이, 포즈 추정부(106)는 이러한 마스킹된 영역을 토대로 의상착용 이미지 내 영역들을 변경영역과 비-변경영역으로 분류할 수 있다.

또한, 포즈 추정부(106)는 사용자로부터 상기 신체영역(A)에 대한 변경포즈를 드래그 앤 드롭 방식으로 입력 받아 추정할 수 있다. 도 5의 (b)를 참조하면, 사용자는 상기 신체영역(A)에 대한 드래그 앤 드롭 동작을 입력할 수 있다. 포즈 추정부(106)는 상기 드래그 앤 드롭 동작에서의 시작점(B)과 끝점(C)을 추출한 후 시작점(B)과 끝점(C)을 기초로 상기 신체영역에 대한 변경포즈를 추정할 수 있다. 여기서, 시작점(B)은 예를 들어, 손, 발, 어깨, 얼굴 등의 일 지점일 수 있다. 또한, 끝점(C)은 예를 들어, 의상착용 이미지 내 임의의 지점으로서, 변경포즈를 나타낼 수 있다. 본 실시예들에 있어서, 변경포즈는 예를 들어, 정면을 바라보고 있는 차렷 자세, 팔을 허리춤에 걸치고 있는 자세, 손을 바지 주머니에 넣고 있는 자세 등과 같이 단순하고 간단한 포즈일 수 있다.

구체적으로, 포즈 추정부(106)는 데이터베이스(150)에 기 저장된 복수 개의 학습 데이터 중 상기 신체영역(A)에 대응되는 신체영역을 포함하는 학습 데이터들을 선별하고, 선별된 상기 학습 데이터들과 상기 드래그 앤 드롭 동작에서의 시작점(B)과 끝점(C)을 각각 비교한 후 기준치 이상의 유사도를 갖는 학습 데이터를 기초로 상기 신체영역(A)에 대한 변경포즈를 추정할 수 있다. 일 예시로서, 포즈 추정부(106)는 상기 드래그 앤 드롭 동작에서의 시작점(B)에 대응되는 위치의 학습 데이터, 즉 오른쪽 손을 바지 주머니에 넣고 있는 상태의 학습 데이터와 상기 드래그 앤 드롭 동작에서의 끝점(C)에 대응되는 위치의 학습 데이터, 즉 오른쪽 손을 바지 주머니에서 뺀 후 바지 주머니 하단에 놓고 있는 상태의 학습 데이터를 각각 추출한 후 추출된 학습 데이터로부터 상기 신체영역(A)에 대한 변경포즈를 추정할 수 있다. 위 예시에서, 포즈 추정부(106)는 의상착용 이미지 내 모델이 오른쪽 손을 바지 주머니에 넣고 있는 상태에서 오른쪽 손을 바지 주머니에서 빼서 바지 주머니 하단으로 이동시키는 포즈를 변경포즈로 결정할 수 있다. 포즈 추정부(106)는 이러한 포즈변경과 관련된 학습 데이터를 기초로 오른쪽 손을 바지 주머니에 넣고 있는 포즈 및 오른쪽 손을 바지 주머니에서 빼서 바지 주머니 하단으로 이동시키는 포즈를 각각 특정할 수 있으며, 이에 따라 상기 신체영역(A)에 대한 변경포즈를 추정할 수 있다. 이와 같이, 포즈 추정부(106)는 마스킹 방식, 드래그 앤 드롭 방식의 순차적인 입력방식을 통해 사용자로부터 변경하고자 하는 신체영역 및 신체영역에 대한 변경포즈를 각각 입력 받을 수 있다.

도 6은 본 발명의 일 실시예에 따른 포즈 추정부(106)에서 변경영역과 비-변경영역을 분류하는 과정을 나타낸 예시이다. 본 실시예들에 있어서, 변경영역은 포즈 변경부(108)에서 포즈변경을 수행하는 영역을 의미하며, 비-변경영역은 포즈 변경부(108)에서 포즈변경을 수행하지 않는 영역을 의미한다.

도 6을 참조하면, 포즈 추정부(106)는 설정된 인공지능 모델을 통해 의상착용 이미지 내 패션 아이템 영역과 배경 영역을 자동으로 분류할 수 있다. 여기서, 패션 아이템 영역은 의상착용 이미지 내에서 패션 아이템이 존재하는 영역으로서, 예를 들어 사람 영역일 수 있다. 또한, 배경 영역은 의상착용 이미지 내에서 패션 아이템이 존재하지 않는 영역으로서 도 6의 회색 부분이 이에 해당할 수 있다. 포즈 추정부(106)는 예를 들어, 인공지능 모델 기반의 이미지 분석 기법을 통해 의상착용 이미지 내 패션 아이템 영역과 배경 영역을 자동으로 분류할 수 있다. 포즈 추정부(106)는 의상착용 이미지와 다량의 학습 데이터를 상호 비교한 후 이를 기반으로 의상착용 이미지 내 패션 아이템 영역과 배경 영역을 자동으로 분류할 수 있다.

이후, 포즈 추정부(106)는 상기 사용자로부터 마스킹 방식을 통해 상기 패션 아이템 영역 중 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역(A)을 입력 받을 수 있다. 상술한 바와 같이, 사용자는 사용자 단말(200)을 통해 의상착용 이미지 내 손 영역을 마스킹할 수 있으며, 이에 따라 포즈 추정부(106)는 변경하고자 하는 신체영역(A)을 손 영역으로 결정할 수 있다. 이때, 포즈 추정부(106)는 사용자로부터 입력 받은 마스킹 영역, 즉 신체영역(A)의 좌표를 학습 데이터와 비교하여 신체영역(A)을 특정할 수 있다. 일 예시로서, 신체영역(A)의 좌표를 연결하는 영역과 학습 데이터를 비교하여 상기 학습 데이터 내 신체부위들 중 상기 신체영역(A)의 좌표를 연결하는 영역과의 유사도가 기준치 이상인 신체부위를 상기 신체영역(A)으로 특정할 수 있다. 포즈 추정부(106)는 사용자가 상기 마스킹 영역을 정확히 특정하지 않았다 하더라도 학습 데이터를 기반으로 신체영역(A)을 특정할 수 있다. 이때, 포즈 추정부(106)는 상기 마스킹 영역 중 배경영역을 제외시킨 나머지 영역과 상기 학습 데이터를 비교하여 신체영역(A)을 특정할 수 있다.

이에 따라, 포즈 추정부(106)는 상기 신체영역(A)을 변경영역으로 분류하고, 상기 패션 아이템 영역 중 상기 변경영역(A)을 제외한 나머지 영역과 상기 배경 영역을 비-변경영역으로 분류할 수 있다. 이후, 포즈 변경부(108)는 상기 변경영역에 대해서만 포즈변경을 수행할 수 있다. 후술할 바와 같이, 포즈 변경부(108)는 GAN 모델을 이용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경할 수 있다. 이때, GAN 방식의 포즈변경 과정에서 의상착용 이미지 내 패션 아이템의 텍스터(texture)가 왜곡되는 현상이 발생할 수 있으므로, 본 발명에서는 변경영역과 비-변경영역을 분류한 후 변경영역에 대해서만 포즈를 변경하도록 하고 포즈변경시 GAN 모델뿐 아니라 Diffusion 모델을 활용하도록 함으로써 패션 아이템 영역에서의 왜곡 현상을 최소화할 수 있다.

다시 도 1로 돌아오면, 포즈 변경부(108)는 GAN 모델과 Diffusion 모델을 이용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경한다. 구체적으로, 포즈 변경부(108)는 상기 복수 개의 학습 데이터 중 상기 변경포즈에 대응되는 학습 데이터 내 신체영역에 대한 속성 정보를 토대로 GAN 모델과 Diffusion 모델을 적용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경할 수 있다. GAN 모델의 경우 사용자들이 부자연스러움을 느끼는 영역의 신체영역의 속성정보(예를 들어, 손, 팔, 다리, 헤어 등의 형상, 크기, 색깔 등)를 개별 학습한 후 기준치 이상의 자연스러움을 갖도록 속성정보 각각을 보정할 수 있다. 상술한 바와 같이, GAN 모델만 사용할 경우 패션 아이템의 프린트(print)나 텍스쳐가 흐릿하게 보이는 문제가 발생될 수 있으므로, 포즈 변경부(108)는 Diffusion 모델을 이용하여 흐릿하거나 비어있는 부분을 새롭게 그려낼 수 있다. Diffusion 모델의 경우 다량의 래퍼런스 이미지를 토대로 각 픽셀 값을 서서히 변경해가면서 상기 흐릿하거나 비어있는 부분을 자동으로 생성, 보정할 수 있다. 이 경우, 포즈 변경부(108)는 의상착용 이미지 내 모델의 형상, 패션 아이템의 종류, 스타일 등을 고려하여 보다 자연스러운 포즈변경을 수행할 수 있다. 포즈 변경부(108)는 Diffusion 모델을 적용하는 과정에서 의상착용 이미지의 픽셀 값을 조금씩 조정할 수 있으며, Diffusion 과정을 거치면서 얻은 중간 단계의 이미지를 GAN 모델을 통해 보정하여 개선할 수 있다.

도 7은 본 발명의 일 실시예에 따른 포즈 변경부(108)에서 신체영역의 포즈를 변경포즈로 변경한 결과를 나타낸 예시이다.

도 7을 참조하면, 포즈 변경부(108)는 데이터베이스(150)에 기 저장된 복수 개의 학습 데이터 중 사용자로부터 입력된 신체영역에 대응되는 신체영역을 포함하는 학습 데이터들을 선별하고, 선별된 학습 데이터들과 드래그 앤 드롭 동작에서의 시작점과 끝점을 각각 비교한 후 기준치 이상의 유사도를 갖는 학습 데이터를 기초로 상기 신체영역에 대한 변경포즈를 추정하되, 상기 신체영역에 GAN 모델과 Diffusion 모델을 적용하여 상기 신체영역의 포즈를 상기 변경포즈로 변경할 수 있다.

다시 도 1로 돌아오면, 패션 아이템 추론부(110)는 데이터베이스(150)에 기 저장된 복수 개의 학습 데이터를 기초로 상기 의상착용 이미지 내 패션 아이템의 스타일 및 소재를 추론한다. 이를 위해, 패션 아이템 추론부(110)는 상기 의상착용 이미지 내 패션 아이템을 복수 개의 카테고리 중 하나로 분류하고, 분류된 카테고리에 대응되는 학습 데이터를 선별할 수 있다. 패션 아이템 추론부(110)는 선별된 학습 데이터를 기초로 상기 의상착용 이미지 내 패션 아이템의 스타일 및 소재를 추론할 수 있다. 패션 아이템 추론부(110)는 선별된 학습 데이터와 상기 의상착용 이미지 내 패션 아이템을 각각 비교하고, 설정된 기준치 이상의 유사도를 갖는 학습 데이터로부터 상기 의상착용 이미지 내 패션 아이템의 스타일 및 소재를 추론할 수 있다. 패션 아이템 추론부(110)는 상기 학습 데이터를 기반으로 상기 의상착용 이미지 내 패션 아이템의 색상, 디자인, 이미지 패턴 등을 분석함으로써 상기 패션 아이템의 스타일을 추론하고, 이미지 분류기법을 통해 상기 의상착용 이미지 내 패션 아이템에 대한 천의 질감, 광택, 무늬 등을 분석하여 상기 패션 아이템의 소재를 추론할 수 있다. 일 예시로서, 패션 아이템 추론부(110)는 상기 학습 데이터로부터 상기 의상착용 이미지 내 패션 아이템이 스판덱스(spandex) 소재의 내추럴(natural) 스타일 여성 원피스인 것으로 추론할 수 있다. 다른 예시로서, 패션 아이템 추론부(110)는 상기 학습 데이터로부터 상기 의상착용 이미지 내 패션 아이템이 코튼(cotton) 소재의 캐주얼(casual) 스타일 여성 상의인 것으로 추론할 수 있다. 이와 같이 추론된 패션 아이템의 스타일 및 소재는 후술할 영상 컨텐츠 생성부(112)에서 영상 컨텐츠를 생성하는 과정에서 활용될 수 있다.

영상 컨텐츠 생성부(112)는 상술한 신체영역의 포즈를 변경포즈로 변경하는 과정에서 복수 개의 연속적인 이미지(예를 들어, 1 프레임당 30장의 연속적인 이미지)를 추출하고, 추출된 복수 개의 연속적인 이미지로부터 영상 컨텐츠를 생성한다. 영상 컨텐츠 생성부(112)는 포즈 변경부(108)에서 상술할 시작점 및 끝점을 기초로 포즈를 변경하는 과정에서 복수 개의 연속적인 이미지를 추출하고, 추출된 복수 개의 연속적인 이미지를 연결하여 영상 컨텐츠를 생성할 수 있다. 이러한 복수 개의 연속적인 이미지가 이어 붙여짐으로써 포즈가 변경되는 과정에 대한 자연스러운 영상 컨텐츠가 생성될 수 있다. 이러한 영상 컨텐츠는 예를 들어, 약 3 ~ 5초 내외의 영상일 수 있다.

이때, 영상 컨텐츠 생성부(112)는 패션 아이템 추론부(110)에서 추론된 상기 패션 아이템의 스타일 및 소재를 고려하여 상기 영상 컨텐츠를 생성할 수 있다. 구체적으로, 영상 컨텐츠 생성부(112)는 추론된 상기 패션 아이템의 스타일 및 소재에 따라 상기 영상 컨텐츠 내에서 상기 패션 아이템의 신축 정도, 빛의 반사정도 및 그림자 효과 중 적어도 하나를 변화시킬 수 있다. 일 예시로서, 스판덱스 소재의 옷의 경우 신축성이 높은 반면 코튼 소재의 옷의 경우 스판덱스 소재의 옷에 비해 신축성이 떨어지며 보다 견고한 느낌을 줄 수 있다. 이에 따라, 영상 컨텐츠 생성부(112)는 의상착용 이미지 내 패션 아이템이 스판덱스 소재의 옷인 경우 영상 컨텐츠를 생성하는 과정에서 코튼 소재의 옷에 비해 더 큰 신축성을 표현할 수 있다. 또한, 영상 컨텐츠 생성부(112)는 이러한 패션 아이템의 스타일 및 소재에 따라 상기 영상 컨텐츠 내에서 상기 패션 아이템의 빛의 반사정도, 그림자 효과 등도 각각 다르게 표현할 수 있다. 영상 컨텐츠 생성부(112)는 예를 들어, U-NET과 같은 네트워크를 활용하여 패션 아이템이 신체 움직임에 따라 어떻게 변형되는지 예측함으로써 신체 영역별 패션 아이템의 변형정도를 모델링 할 수 있다.

도 8 및 도 9는 본 발명의 일 실시예에 따른 영상 컨텐츠 생성부(112)에서 복수 개의 연속적인 이미지로부터 영상 컨텐츠를 생성하는 과정을 나타낸 예시이다.

도 8 및 도 9에 도시된 바와 같이, 영상 컨텐츠 생성부(112)는 패션 아이템 추론부(110)에서 추론된 상기 패션 아이템의 스타일 및 소재를 고려하여 상기 영상 컨텐츠를 동적으로 생성할 수 있으며, 이에 따라 패션 아이템의 착용감을 보다 실감나게 표현할 수 있다.

도 10은 본 발명의 일 실시예에 따른 포즈추정 기반의 영상 컨텐츠 생성 방법을 설명하기 위한 흐름도이다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

S102 단계에서, 이미지 입력부(102)는 사용자로부터 의상착용 이미지를 입력 받는다.

S104 단계에서, 휴먼모델 합성부(104)는 가상의 휴먼모델을 생성한 후 의상착용 이미지에 합성한다.

S106 단계에서, 포즈 추정부(106는 상기 사용자로부터 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역과 상기 신체영역에 대한 변경포즈를 입력 받아 추정한다.

S108 단계에서, 포즈 변경부(108)는 GAN 델과 Diffusion 모델을 이용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경한다.

S110 단계에서, 영상 컨텐츠 생성부(112)는 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 과정에서 복수 개의 연속적인 이미지를 추출한다.

S112 단계에서, 영상 컨텐츠 생성부(112)는 추출된 상기 복수 개의 연속적인 이미지로부터 영상 컨텐츠를 생성한다. 이때, 패션 아이템 추론부(110)는 데이터베이스(150)에 기 저장된 복수 개의 학습 데이터를 기초로 상기 의상착용 이미지 내 패션 아이템의 스타일 및 소재를 추론할 수 있으며, 영상 컨텐츠 생성부(112)는 추론된 상기 패션 아이템의 스타일 및 소재를 고려하여 상기 영상 컨텐츠를 생성할 수 있다.

도 11은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술되지 않은 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 영상 컨텐츠 생성 시스템(100), 또는 영상 컨텐츠 생성 시스템(100)에 포함되는 하나 이상의 컴포넌트일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 전술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100 : 영상 컨텐츠 생성 시스템
102 : 이미지 입력부
104 : 휴먼모델 합성부
106 : 포즈 추정부
108 : 포즈 변경부
110 : 패션 아이템 추론부
112 : 영상 컨텐츠 생성부
150 : 데이터베이스
200 : 사용자 단말

Claims

사용자로부터 의상착용 이미지를 입력 받는 이미지 입력부;
상기 사용자로부터 마스킹(masking) 방식을 통해 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역을 입력 받고, 상기 사용자에 의해 마스킹될 때마다 마스킹된 영역의 좌표를 결정하여 상기 신체영역을 특정하며, 데이터베이스에 기 저장된 복수 개의 학습 데이터 중 상기 신체영역에 대응되는 신체영역을 포함하는 학습 데이터들을 선별하고, 상기 사용자로부터 상기 신체영역에 대한 변경포즈를 드래그 앤 드롭(drag-and-drop) 동작으로 입력 받고, 선별된 상기 학습 데이터들 중 상기 드래그 앤 드롭 동작에서의 시작점에 대응되는 학습 데이터와 상기 드래그 앤 드롭 동작에서의 끝점에 대응되는 학습 데이터로부터 상기 신체영역에 대한 변경포즈를 추정하는 포즈 추정부;
GAN(Generative Adversarial Network) 모델과 Diffusion 모델을 이용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 포즈 변경부;
상기 신체영역의 포즈를 상기 변경포즈로 변경하는 과정에서 복수 개의 연속적인 이미지를 추출하고, 추출된 상기 복수 개의 연속적인 이미지로부터 영상 컨텐츠를 생성하는 영상 컨텐츠 생성부; 및
상기 데이터베이스에 기 저장된 복수 개의 학습 데이터를 기초로 상기 의상착용 이미지 내 패션 아이템의 스타일 및 소재를 추론하는 패션 아이템 추론부를 포함하며,
상기 영상 컨텐츠 생성부는, 상기 변경포즈가 반영된 상기 복수 개의 연속적인 이미지를 연결하여 상기 영상 컨텐츠를 생성하되, 상기 영상 컨텐츠를 생성하는 과정에서 상기 패션 아이템의 스타일 및 소재에 따라 상기 영상 컨텐츠 내에서 상기 패션 아이템의 신축 정도, 빛의 반사정도 및 그림자 효과 중 적어도 하나를 변화시키는, 포즈추정 기반의 영상 컨텐츠 생성 시스템.
청구항 1에 있어서,
상기 포즈 추정부는, 설정된 인공지능 모델을 통해 상기 의상착용 이미지 내 패션 아이템 영역과 배경 영역을 자동으로 분류하고, 상기 사용자로부터 상기 패션 아이템 영역 중 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역을 입력 받는, 포즈추정 기반의 영상 컨텐츠 생성 시스템.
청구항 2에 있어서,
상기 포즈 추정부는, 상기 신체영역을 변경영역으로 분류하고, 상기 패션 아이템 영역 중 상기 변경영역을 제외한 나머지 영역과 상기 배경 영역을 비-변경영역으로 분류하며,
상기 포즈 변경부는, 상기 변경영역에 대해서만 포즈변경을 수행하는, 포즈추정 기반의 영상 컨텐츠 생성 시스템.
삭제
삭제
청구항 1에 있어서,
상기 포즈 변경부는, 상기 복수 개의 학습 데이터 중 상기 변경포즈에 대응되는 학습 데이터 내 신체영역에 대한 속성 정보를 토대로 상기 GAN 모델과 Diffusion 모델을 적용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경하는, 포즈추정 기반의 영상 컨텐츠 생성 시스템.
삭제
삭제
청구항 1에 있어서,
상기 의상착용 이미지 내 노출 신체영역을 결정하고, 상기 의상착용 이미지 내 패션 아이템의 종류, 스타일 및 컬러를 분석하며, 상기 패션 아이템의 분석결과 및 데이터베이스에 기 저장된 학습 데이터들을 기초로 가상의 휴먼모델을 추정한 후 상기 휴먼모델을 상기 의상착용 이미지 내 노출 신체영역에 합성하는 휴먼모델 합성부를 더 포함하는, 포즈추정 기반의 영상 컨텐츠 생성 시스템.
청구항 9에 있어서,
상기 휴먼모델 합성부는, 상기 패션 아이템의 종류, 스타일 및 컬러에 따라 상기 패션 아이템을 기 분류된 복수 개의 카테고리 중 하나로 분류하고, 분류된 상기 카테고리에 대응되는 학습 데이터를 토대로 상기 휴먼모델을 추정하는, 포즈추정 기반의 영상 컨텐츠 생성 시스템.
청구항 10에 있어서,
상기 휴먼모델 합성부는, 상기 사용자로부터 특정 브랜드(brand) 정보를 입력 받고, 분류된 상기 카테고리에 대응되는 학습 데이터 중 상기 브랜드 정보에 대응되는 모델 이미지에 더 큰 가중치를 부여하여 상기 휴먼모델을 추정하는, 포즈추정 기반의 영상 컨텐츠 생성 시스템.
이미지 입력부에서, 사용자로부터 의상착용 이미지를 입력 받는 단계;
포즈 추정부에서, 상기 사용자로부터 마스킹(masking) 방식을 통해 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역을 입력 받는 단계;
상기 포즈 추정부에서, 상기 사용자에 의해 마스킹될 때마다 마스킹된 영역의 좌표를 결정하여 상기 신체영역을 특정하는 단계;
상기 포즈 추정부에서, 데이터베이스에 기 저장된 복수 개의 학습 데이터 중 상기 신체영역에 대응되는 신체영역을 포함하는 학습 데이터들을 선별하는 단계;
상기 포즈 추정부에서, 상기 사용자로부터 상기 신체영역에 대한 변경포즈를 드래그 앤 드롭(drag-and-drop) 동작으로 입력 받는 단계;
상기 포즈 추정부에서, 선별된 상기 학습 데이터들 중 상기 드래그 앤 드롭 동작에서의 시작점에 대응되는 학습 데이터와 상기 드래그 앤 드롭 동작에서의 끝점에 대응되는 학습 데이터로부터 상기 신체영역에 대한 변경포즈를 추정하는 단계;
포즈 변경부에서, GAN 모델과 Diffusion 모델을 이용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 단계;
영상 컨텐츠 생성부에서, 상기 신체영역의 포즈를 상기 변경포즈로 변경하는 과정에서 복수 개의 연속적인 이미지를 추출하는 단계;
패션 아이템 추론부에서, 상기 데이터베이스에 기 저장된 복수 개의 학습 데이터를 기초로 상기 의상착용 이미지 내 패션 아이템의 스타일 및 소재를 추론하는 단계; 및
상기 영상 컨텐츠 생성부에서, 상기 변경포즈가 반영된 상기 복수 개의 연속적인 이미지를 연결하여 영상 컨텐츠를 생성하되, 상기 영상 컨텐츠를 생성하는 과정에서 상기 패션 아이템의 스타일 및 소재에 따라 상기 영상 컨텐츠 내에서 상기 패션 아이템의 신축 정도, 빛의 반사정도 및 그림자 효과 중 적어도 하나를 변화시키는 단계를 포함하는, 포즈추정 기반의 영상 컨텐츠 생성 방법.
청구항 12에 있어서,
상기 신체영역을 입력 받는 단계는, 설정된 인공지능 모델을 통해 상기 의상착용 이미지 내 패션 아이템 영역과 배경 영역을 자동으로 분류하고, 상기 사용자로부터 상기 패션 아이템 영역 중 상기 의상착용 이미지 내에서 변경하고자 하는 신체영역을 입력 받는, 포즈추정 기반의 영상 컨텐츠 생성 방법.
청구항 13에 있어서,
상기 신체영역을 입력 받는 단계 이후,
상기 포즈 추정부에서, 상기 신체영역을 변경영역으로 분류하는 단계; 및
상기 포즈 추정부에서, 상기 패션 아이템 영역 중 상기 변경영역을 제외한 나머지 영역과 상기 배경 영역을 비-변경영역으로 분류하는 단계를 더 포함하며,
상기 신체영역의 포즈를 상기 변경포즈로 변경하는 단계는, 상기 변경영역에 대해서만 포즈변경을 수행하는, 포즈추정 기반의 영상 컨텐츠 생성 방법.
삭제
삭제
청구항 12에 있어서,
상기 신체영역의 포즈를 상기 변경포즈로 변경하는 단계는, 상기 복수 개의 학습 데이터 중 상기 변경포즈에 대응되는 학습 데이터 내 신체영역에 대한 속성 정보를 토대로 상기 GAN 모델과 Diffusion 모델을 적용하여 상기 의상착용 이미지 내 상기 신체영역의 포즈를 상기 변경포즈로 변경하는, 포즈추정 기반의 영상 컨텐츠 생성 방법.
삭제
삭제
청구항 12에 있어서,
상기 의상착용 이미지를 입력 받는 단계 이후,
휴먼모델 합성부에서, 상기 의상착용 이미지 내 노출 신체영역을 결정하는 단계;
상기 휴먼모델 합성부에서, 상기 의상착용 이미지 내 패션 아이템의 종류, 스타일 및 컬러를 분석하는 단계;
상기 휴먼모델 합성부에서, 상기 패션 아이템의 분석결과 및 데이터베이스에 기 저장된 학습 데이터들을 기초로 가상의 휴먼모델을 추정하는 단계; 및
상기 휴먼모델 합성부에서, 상기 휴먼모델을 상기 의상착용 이미지 내 노출 신체영역에 합성하는 단계를 더 포함하는, 포즈추정 기반의 영상 컨텐츠 생성 방법.
청구항 20에 있어서,
상기 휴먼모델을 추정하는 단계는, 상기 패션 아이템의 종류, 스타일 및 컬러에 따라 상기 패션 아이템을 기 분류된 복수 개의 카테고리 중 하나로 분류하고, 분류된 상기 카테고리에 대응되는 학습 데이터를 토대로 상기 휴먼모델을 추정하는, 포즈추정 기반의 영상 컨텐츠 생성 방법.
청구항 21에 있어서,
상기 휴먼모델을 추정하는 단계는, 상기 사용자로부터 특정 브랜드(brand) 정보를 입력 받고, 분류된 상기 카테고리에 대응되는 학습 데이터 중 상기 브랜드 정보에 대응되는 모델 이미지에 더 큰 가중치를 부여하여 상기 휴먼모델을 추정하는, 포즈추정 기반의 영상 컨텐츠 생성 방법.