KR20220137848A

KR20220137848A - 가상 형상 생성 모델의 트레이닝 방법 및 가상 형상 생성 방법

Info

Publication number: KR20220137848A
Application number: KR1020220121186A
Authority: KR
Inventors: 하오티엔 펑; 첸 자오
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2021-12-08
Filing date: 2022-09-23
Publication date: 2022-10-12
Also published as: KR102627802B1; CN114140603B; JP7374274B2; US20220414959A1; JP2022177218A; CN114140603A

Abstract

본 발명은 가상 형상 생성 모델의 트레이닝 방법, 가상 형상 생성 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램을 제공하며, 인공 지능형 기술 분야, 구체적으로 가상/증강 현실, 컴퓨터 비전 및 딥 러닝 기술 분야에 관한 것으로 가상 형상 생성 등 장면에 적용될 수 있다. 구체적인 구현 방안은, 표준 이미지 샘플 세트 및 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻고; 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻으며; 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻고; 상기 모델에 기반하여 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻는 것이다. 가상 형상 생성 효율을 향상시키고 사용자 체험을 향상시킨다.

Description

가상 형상 생성 모델의 트레이닝 방법 및 가상 형상 생성 방법{TRAINING METHOD OF VIRTUAL IMAGE GENERATION MODEL AND VIRTUAL IMAGE GENERATION METHOD}

본 발명은 인공 지능형 기술 분야, 구체적으로 가상/증강 현실, 컴퓨터 비전 및 딥 러닝 기술 분야에 관한 것으로 가상 형상 생성 등 장면에 적용될 수 있으며, 특히 가상 형상 생성 모델의 트레이닝 방법, 가상 형상 생성 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램에 관한 것이다.

현재 텍스트에 의한 가상 형상 생성은 매칭을 통해서만 구현될 수 있고, 즉 수동 태깅을 통해 가상 형상에 속성 태그를 태깅하며 수동으로 매핑 관계를 설정하는 것이지만, 상기 방식은 비용이 높고 유연성이 부족하며 복잡하고 대량의 의미 구조에 대해서 수동 태깅은 보다 깊은 계층의 메쉬 매핑 관계를 구축하기 어렵다.

본 발명은 가상 형상 생성 모델의 트레이닝 방법, 가상 형상 생성 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램을 제공하여 가상 형상 생성 효율을 향상시킨다.

본 발명의 일 양태에 따르면, 표준 이미지 샘플 세트, 설명 텍스트 샘플 세트 및 랜덤 벡터 샘플 세트를 획득하는 단계; 표준 이미지 샘플 세트 및 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻는 단계; 랜덤 벡터 샘플 세트 및 이미지 생성 모델에 기반하여 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 얻는 단계; 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻는 단계; 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻는 단계; 및 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델에 기반하여 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻는 단계를 포함하는 가상 형상 생성 모델의 트레이닝 방법을 제공한다.

본 발명의 다른 양태에 따르면, 가상 형상 생성 요청을 수신하는 단계; 가상 형상 생성 요청에 기반하여 제1 설명 텍스트를 결정하는 단계; 및 제1 설명 텍스트, 기설정된 표준 이미지 및 미리 트레이닝된 가상 형상 생성 모델에 기반하여 제1 설명 텍스트에 대응되는 가상 형상을 생성하는 단계를 포함하는 가상 형상 생성 방법을 제공한다.

본 발명의 또 다른 양태에 따르면, 표준 이미지 샘플 세트, 설명 텍스트 샘플 세트 및 랜덤 벡터 샘플 세트를 획득하도록 구성된 제1 획득 모듈; 표준 이미지 샘플 세트 및 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻도록 구성된 제1 트레이닝 모듈; 랜덤 벡터 샘플 세트 및 이미지 생성 모델에 기반하여 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 얻도록 구성된 제2 획득 모듈; 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻도록 구성된 제2 트레이닝 모듈; 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻도록 구성된 제3 트레이닝 모듈; 및 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델에 기반하여 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻도록 구성된 제4 트레이닝 모듈을 포함하는 가상 형상 생성 모델의 트레이닝 장치를 제공한다.

본 발명의 또 다른 양태에 따르면, 가상 형상 생성 요청을 수신하도록 구성된 제1 수신 모듈; 가상 형상 생성 요청에 기반하여 제1 설명 텍스트를 결정하도록 구성된 제1 결정 모듈; 및 제1 설명 텍스트, 기설정된 표준 이미지 및 미리 트레이닝된 가상 형상 생성 모델에 기반하여 제1 설명 텍스트에 대응되는 가상 형상을 생성하도록 구성된 제1 생성 모듈을 포함하는 가상 형상 생성 장치를 제공한다.

본 발명의 또 다른 양태에 따르면, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되; 여기서 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 상기 가상 형상 생성 모델의 트레이닝 방법 및 가상 형상 생성 방법을 수행할 수 있도록 하는 전자 기기를 제공한다.

본 발명의 또 다른 양태에 따르면, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 제공하되, 여기서 상기 컴퓨터 명령은 상기 컴퓨터가 상기 가상 형상 생성 모델의 트레이닝 방법 및 가상 형상 생성 방법을 수행하도록 하는데 사용된다.

본 발명의 또 다른 양태에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하되, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기 가상 형상 생성 모델의 트레이닝 방법 및 가상 형상 생성 방법을 구현하도록 한다.

본 부분에서 설명된 내용은 본 발명의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 발명의 범위를 한정하려는 의도도 아님을 이해해야 할 것이다. 본 발명의 다른 특징은 아래 명세서에 의해 쉽게 이해될 것이다.

도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다. 여기서,
도 1은 본 발명이 적용될 수 있는 예시적인 시스템 아키텍처 다이어그램이다.
도 2는 본 발명에 따른 가상 형상 생성 모델의 트레이닝 방법의 일 실시예의 흐름도이다.
도 3은 본 발명에 따른 가상 형상 생성 모델의 트레이닝 방법의 다른 실시예의 흐름도이다.
도 4는 본 발명에 따른 형상 계수 생성 모델에 의해 형상 계수를 생성하는 모식도이다.
도 5는 본 발명에 따른 표준 이미지 샘플 세트 및 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻는 방법의 일 실시예의 흐름도이다.
도 6은 본 발명에 따른 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻는 방법의 일 실시예의 흐름도이다.
도 7은 본 발명에 따른 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻는 방법의 일 실시예의 흐름도이다.
도 8은 본 발명에 따른 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻는 방법의 일 실시예의 흐름도이다.
도 9는 본 발명에 따른 가상 형상 생성 방법의 일 실시예의 흐름도이다.
도 10은 본 발명에 따른 가상 형상 생성 모델의 트레이닝 장치의 일 실시예의 구조 모식도이다.
도 11은 본 발명에 따른 가상 형상 생성 장치의 일 실시예의 구조 모식도이다.
도 12는 본 발명의 실시예의 가상 형상 생성 모델의 트레이닝 방법 또는 가상 형상 생성 방법을 구현하기 위한 전자 기기의 블록도이다.

아래 도면을 결부하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부사항들이 포함되지만, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위 및 정신을 벗어나지 않으면서 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 할 것이다. 마찬가지로, 명확 및 간략을 위해, 아래의 설명에서 공지 기능 및 구조에 대한 설명을 생략한다.

도 1은 본 발명의 가상 형상 생성 모델의 트레이닝 방법 또는 가상 형상 생성 방법 또는 가상 형상 생성 모델의 트레이닝 장치 또는 가상 형상 생성 장치의 실시예가 적용될 수 있는 예시적인 시스템 아키텍처(100)를 도시한다.

도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 기기(101, 102, 103)와 서버(105) 사이에서 통신 링크의 매체를 제공하기 위해 사용된다. 네트워크(104)는 유선, 무선 통신 링크 또는 광섬유 케이블과 같은 다양한 연결 타입을 포함할 수 있다.

사용자는 단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션함으로써 가상 형상 생성 모델 또는 가상 형상 등을 획득할 수 있다. 단말 기기(101, 102, 103)에는 텍스트 처리 애플리케이션과 같은 다양한 클라이언트 애플리케이션이 설치될 수 있다.

단말 기기(101, 102, 103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말 기기(101, 102, 103)가 하드웨어인 경우 다양한 전자 기기일 수 있으며, 스마트폰, 태블릿 PC, 휴대형 랩톱 컴퓨터 및 데스크톱 컴퓨터 등을 포함하지만 이에 한정되지 않는다. 단말 기기(101, 102, 103)가 소프트웨인 경우 상기 전자 기기에 설치될 수 있다. 복수의 소프트웨어 또는 소프트웨어 모듈로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.

서버(105)는 가상 형상 생성 모델 또는 가상 형상 결정에 기반한 다양한 서비스를 제공할 수 있다. 예를 들면 서버(105)는 단말 기기(101, 102, 103)로부터 획득된 텍스트를 분석 및 처리하고, 처리 결과(예를 들어, 텍스트에 대응되는 가상 형상 결정 등)를 생성할 수 있다.

설명해야 할 것은, 서버(105)는 하드웨어 또는 소프트웨어일 수 있다. 서버(105)가 하드웨어인 경우 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(105)가 소프트웨어인 경우 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있다. 여기서는 구체적으로 한정하지 않는다.

설명해야 할 것은, 본 발명의 실시예에서 제공되는 가상 형상 생성 모델의 트레이닝 방법 또는 가상 형상 생성 방법은 일반적으로 서버(105)에 의해 수행되고, 상응하게, 가상 형상 생성 모델의 트레이닝 장치 또는 가상 형상 생성 장치는 일반적으로 서버(105)에 설치될 수 있다.

이해해야 할 것은, 도 1 중의 단말 기기, 네트워크 및 서버의 개수는 예시적인 것일 뿐이다. 실제 수요에 따라 임의의 개수의 단말 기기, 네트워크 및 서버를 구비할 수 있다.

계속하여 도 2를 참조하면, 본 발명에 따른 가상 형상 생성 모델의 트레이닝 방법의 일 실시예의 흐름(200)을 도시한다. 상기 가상 형상 생성 모델의 트레이닝 방법은 하기와 같은 단계를 포함한다.

단계(201)에서, 표준 이미지 샘플 세트, 설명 텍스트 샘플 세트 및 랜덤 벡터 샘플 세트를 획득한다.

본 실시예에서, 가상 형상 생성 모델의 트레이닝 방법의 수행 주체(예를 들어, 도 1에 도시된 서버(105))는 표준 이미지 샘플 세트, 설명 텍스트 샘플 세트 및 랜덤 벡터 샘플 세트를 획득할 수 있다. 여기서, 표준 이미지 샘플 세트 중의 이미지는 동물 이미지일 수 있고, 식물 이미지일 수 있으며, 얼굴 이미지일 수도 있고 본 발명은 이에 대해 한정하지 않는다. 표준 이미지는 정상적인 성장 상태, 건강 상태에 있는 동물 이미지, 또는 식물 이미지, 또는 얼굴 이미지이며, 예시적으로 표준 이미지 샘플 세트는 복수의 건강한 동양인의 얼굴 이미지로 구성된 샘플 세트이다. 표준 이미지 샘플 세트는 개시된 데이터베이스로부터 획득될 수 있고, 여러 이미지를 촬영하여 표준 이미지 샘플 세트를 획득할 수도 있으며, 본 발명은 이에 대해 한정하지 않는다.

본 발명의 기술적 해결수단에서, 관련된 사용자 개인 정보의 수집, 저장, 사용, 가공, 전송, 제공 및 개시 등 처리는 모두 관련 법률법규의 규정에 부합되며 공서양속에 위배되지 않는다.

설명 텍스트 샘플 세트 중의 설명 텍스트는 타깃 가상 형상의 특징을 설명하기 위한 텍스트이다. 예시적으로, 설명 텍스트의 내용은 긴 볼륨 헤어, 큰 눈, 하얀 피부, 긴 속눈썹이다. 개시된 문자로부터 동물 또는 식물 또는 얼굴의 특징을 설명하는 여러 단락의 문자를 잘라내어 설명 텍스트 샘플 세트를 구성할 수 있고, 개시된 동물 이미지, 또는 식물 이미지, 또는 얼굴 이미지를 기반으로, 문자의 형태로 이미지의 특징을 요약하고 기록하여 기록된 여러 단락의 문자를 설명 텍스트 샘플 세트로 결정할 수도 있으며, 개시된 동물 또는 식물 또는 얼굴의 특징을 설명하는 문자 라이브러리를 획득하여 문자 라이브러리로부터 복수의 특징을 임의로 선택하여 하나의 설명 텍스트를 구성함으로써 획득된 여러 설명 텍스트를 설명 텍스트 샘플 세트로 결정할 수도 있고, 본 발명은 이에 대해 한정하지 않는다. 설명 텍스트 샘플 세트 중의 설명 텍스트는 영어 텍스트일 수 있고, 중국어 텍스트일 수도 있으며, 다른 언어의 텍스트일 수도 있고, 본 발명은 이에 대해 한정하지 않는다.

랜덤 벡터 샘플 세트 중의 랜덤 벡터는 균일 분포 또는 가우시안 분포에 부합되는 랜덤 벡터이다. 균일 분포 또는 가우시안 분포에 부합되는 랜덤 벡터를 생성할 수 있는 함수를 미리 구축하여, 상기 함수를 기반으로 복수의 랜덤 벡터를 획득하여 랜덤 벡터 샘플 세트를 구성할 수 있다.

단계(202)에서, 표준 이미지 샘플 세트 및 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻는다.

본 실시예에서, 상기 수행 주체는 표준 이미지 샘플 세트 및 랜덤 벡터 샘플 세트를 획득한 후, 표준 이미지 샘플 세트 및 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻을 수 있다. 구체적으로, 다음과 같은 트레이닝 단계를 수행할 수 있으며, 즉 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 제1 초기 모델에 입력하여 제1 초기 모델에 의해 출력된 각각의 랜덤 벡터 샘플에 대응되는 이미지를 얻고, 제1 초기 모델에 의해 출력된 이미지와 표준 이미지 샘플 세트 중의 표준 이미지를 비교하여 제1 초기 모델의 정확도를 얻어, 정확도와 기설정된 정확도 임계값을 비교하되, 예시적으로 기설정된 정확도 임계값은 80 %이고, 제1 초기 모델의 정확도가 기설정된 정확도 임계값보다 크면 제1 초기 모델을 이미지 생성 모델로 결정하며, 제1 초기 모델의 정확도가 기설정된 정확도 임계값보다 작으면 제1 초기 모델의 파라미터를 조정하고, 계속하여 트레이닝한다. 제1 초기 모델은 생성적 대립 네트워크 중 양식 기반의 이미지 생성 모델일 수 있고, 본 발명은 이에 대해 한정하지 않는다.

단계(203)에서, 랜덤 벡터 샘플 세트 및 이미지 생성 모델에 기반하여 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 얻는다.

본 실시예에서, 상기 수행 주체는 랜덤 벡터 샘플 세트 및 이미지 생성 모델에 기반하여 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 얻을 수 있다. 여기서, 이미지 생성 모델은 랜덤 벡터를 입력으로 중간 변수인 잠재 벡터를 생성하고 최종 이미지 생성 모델에서 하나의 이미지를 출력할 수 있다. 따라서, 랜덤 벡터 샘플 세트 중 복수의 랜덤 벡터 샘플을 이미지 생성 모델에 입력하여 대응하는 복수의 잠재 벡터 및 이미지를 얻고, 얻은 복수의 잠재 벡터를 테스트 잠재 벡터 샘플 세트로 결정하여, 얻은 복수의 이미지를 테스트 이미지 샘플 세트로 결정할 수 있다. 여기서, 잠재 벡터는 이미지 특징을 나타내는 벡터이고, 잠재 벡터로 이미지 특징을 나타내어, 이미지 특징 간의 연관 관계를 분리함으로써 특징이 얽히는 현상을 방지할 수 있다.

단계(204)에서, 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻는다.

본 실시예에서, 상기 수행 주체는 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 얻은 후, 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻을 수 있다. 구체적으로, 다음과 같은 트레이닝 단계를 수행할 수 있으며, 즉 테스트 이미지 샘플 세트 중의 테스트 이미지 샘플을 제2 초기 모델에 입력하여 제2 초기 모델에 의해 출력된 각각의 테스트 이미지 샘플에 대응되는 잠재 벡터를 얻고, 제2 초기 모델에 의해 출력된 잠재 벡터와 테스트 잠재 벡터 샘플 세트 중의 테스트 잠재 벡터를 비교하여 제2 초기 모델의 정확도를 얻어, 정확도와 기설정된 정확도 임계값을 비교하되, 예시적으로 기설정된 정확도 임계값은 80 %이고, 제2 초기 모델의 정확도가 기설정된 정확도 임계값보다 크면 제2 초기 모델을 이미지 인코딩 모델로 결정하며, 제2 초기 모델의 정확도가 기설정된 정확도 임계값보다 작으면 제2 초기 모델의 파라미터를 조정하고, 계속하여 트레이닝한다. 제2 초기 모델은 생성적 대립 네트워크 중 양식 기반의 이미지 인코딩 모델일 수 있고, 본 발명은 이에 대해 한정하지 않는다.

단계(205)에서, 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻는다.

본 실시예에서, 상기 수행 주체는 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 얻은 후, 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻을 수 있다. 구체적으로, 다음과 같은 트레이닝 단계를 수행할 수 있으며, 즉 표준 이미지 샘플 세트 중의 표준 이미지를 초기 이미지로 사용하고 초기 이미지 및 설명 텍스트 샘플 세트 중의 설명 텍스트를 제3 초기 모델에 입력하여 제3 초기 모델에 의해 출력된 초기 이미지 및 설명 텍스트의 편차 값을 얻고, 제3 초기 모델에 의해 출력된 편차 값을 기반으로 초기 이미지를 편집하며, 편집된 이미지와 설명 텍스트를 비교하여 제3 초기 모델의 예측 정확도를 얻어, 예측 정확도와 기설정된 정확도 임계값을 비교하되, 예시적으로 기설정된 정확도 임계값은 80 %이고, 제3 초기 모델의 예측 정확도가 기설정된 정확도 임계값보다 크면 제3 초기 모델을 이미지 인코딩 모델로 결정하며, 제3 초기 모델의 정확도가 기설정된 정확도 임계값보다 작으면 제3 초기 모델의 파라미터를 조정하고, 계속하여 트레이닝한다. 제3 초기 모델은 CLIP(Contrastive Language-Image Pre-training) 모델일 수 있으며 본 발명은 이에 대해 한정하지 않고, 여기서 CLIP 모델은 이미지 및 설명 텍스트의 차이를 계산할 수 있는 모델이다.

단계(206)에서, 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델에 기반하여 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻는다.

본 실시예에서, 상기 수행 주체는 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델을 트레이닝하여 얻은 후, 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델에 기반하여 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻을 수 있다. 구체적으로, 다음과 같은 트레이닝 단계를 수행할 수 있으며, 즉 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델을 기반으로 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 형상 계수 샘플 세트 및 잠재 벡터 샘플 세트로 변환하고, 잠재 벡터 샘플 세트 중의 잠재 벡터 샘플 세트를 제4 초기 모델에 입력하여 제4 초기 모델에 의해 출력된 형상 계수를 얻으며, 제4 초기 모델에 의해 출력된 형상 계수와 형상 계수 샘플을 비교하여 제4 초기 모델의 정확도를 얻어, 정확도와 기설정된 정확도 임계값을 비교하되, 예시적으로 기설정된 정확도 임계값은 80 %이고, 제4 초기 모델의 정확도가 기설정된 정확도 임계값보다 크면 제4 초기 모델을 가상 형상 생성 모델로 결정하며, 제4 초기 모델의 정확도가 기설정된 정확도 임계값보다 작으면 제4 초기 모델의 파라미터를 조정하고, 계속하여 트레이닝한다. 제4 초기 모델은 잠재 벡터에 의해 가상 형상을 생성하는 모델일 수 있고, 본 발명은 이에 대해 한정하지 않는다.

본 발명의 실시예에서 제공되는 가상 형상 생성 모델의 트레이닝 방법은 우선 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델을 트레이닝한 다음, 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델을 기반으로 가상 형상 생성 모델을 트레이닝하여 얻는 것이다. 상기 모델을 기반으로 직접 텍스트로부터 가상 형상을 생성하는 것을 구현할 수 있어 가상 형상 생성 효율을 향상시키며 비용을 절감한다.

또한 계속하여 도 3을 참조하면, 본 발명에 따른 가상 형상 생성 모델의 트레이닝 방법의 다른 실시예의 흐름(300)을 도시한다. 상기 가상 형상 생성 모델의 트레이닝 방법은 하기와 같은 단계를 포함한다.

단계(301)에서, 표준 이미지 샘플 세트, 설명 텍스트 샘플 세트 및 랜덤 벡터 샘플 세트를 획득한다.

단계(302)에서, 표준 이미지 샘플 세트 및 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻는다.

단계(303)에서, 랜덤 벡터 샘플 세트 및 이미지 생성 모델에 기반하여 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 얻는다.

단계(304)에서, 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻는다.

단계(305)에서, 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻는다.

단계(306)에서, 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델에 기반하여 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻는다.

본 실시예에서, 단계(301) 내지 단계(306)의 구체적인 동작은 도 2에 도시된 실시예 중 단계(201) 내지 단계(206)에서 상세하게 소개하였으며, 여기서 더이상 반복 서술하지 않는다.

단계(307)에서, 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 미리 트레이닝된 형상 계수 생성 모델에 입력하여 형상 계수 샘플 세트를 얻는다.

본 실시예에서, 상기 수행 주체는 표준 이미지 샘플 세트를 얻은 후, 표준 이미지 샘플 세트에 기반하여 형상 계수 샘플 세트를 획득할 수 있다. 구체적으로, 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 입력 데이터로 사용하여 미리 트레이닝된 형상 계수 생성 모델에 입력하고 형상 계수 생성 모델의 출력단으로부터 표준 이미지 샘플에 대응되는 형상 계수를 출력하여, 출력된 복수의 형상 계수를 형상 계수 샘플 세트로 결정할 수 있다. 여기서, 미리 트레이닝된 형상 계수 생성 모델은 PTA(Photo-to-Avatar) 모델일 수 있고, PTA 모델은 하나의 이미지를 입력한 후, 상기 이미지의 모델 베이스에 기반하여 미리 저장된 복수의 관련된 형상 베이스와 함께 계산하여, 대응하는 복수의 형상 계수를 출력할 수 있는 모델이며, 여기서 복수의 형상 계수는 상기 이미지의 모델 베이스와 각각의 미리 저장된 형상 베이스의 상이한 정도를 나타낸다.

도 4에 도시된 바와 같이, 본 발명에 따른 형상 계수 생성 모델에 의해 형상 계수를 생성하는 모식도를 도시하며, 도 4로부터 볼 수 있다시피, 형상 계수 생성 모델에 복수의 표준 형상 베이스가 미리 저장되어 있고, 복수의 표준 형상 베이스는 갸름한 긴 얼굴형 베이스, 둥근 얼굴형 베이스, 사각 얼굴형 베이스 등과 같이 인간의 다양한 기본 얼굴형에 따라 얻어진 것이며, 하나의 얼굴 이미지를 입력 데이터로 사용하여 형상 계수 생성 모델에 입력하면, 얼굴 이미지가 입력된 모델 베이스 및 복수의 표준 형상 베이스를 기반으로 계산할 수 있으며, 형상 계수 생성 모델의 출력단으로부터 입력된 얼굴 이미지 및 각각의 표준 형상 베이스에 대응되는 형상 계수를 얻되, 여기서 각각의 형상 계수는 얼굴 이미지가 입력된 모델 베이스와 대응하는 형상 베이스의 상이한 정도를 나타낸다.

단계(308)에서, 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 이미지 인코딩 모델에 입력하여 표준 잠재 벡터 샘플 세트를 얻는다.

본 실시예에서, 상기 수행 주체는 표준 이미지 샘플 세트를 얻은 후, 표준 이미지 샘플 세트를 기반으로 표준 잠재 벡터 샘플 세트를 획득할 수 있다. 구체적으로, 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 입력 데이터로 사용하여 이미지 인코딩 모델에 입력하고, 이미지 인코딩 모델의 출력단으로부터 표준 이미지 샘플에 대응되는 표준 잠재 벡터를 출력하며, 출력된 복수의 표준 잠재 벡터를 표준 잠재 벡터 샘플 세트로 결정할 수 있다. 여기서, 이미지 인코딩 모델은 생성적 대립 네트워크 중 양식 기반의 이미지 인코딩 모델일 수 있고, 상기 이미지 인코딩 모델은 하나의 이미지를 입력한 후, 상기 이미지의 이미지 특징에 대해 디코딩을 수행하여 입력 이미지에 대응되는 잠재 벡터를 출력할 수 있는 모델이다. 여기서, 표준 잠재 벡터는 표준 이미지 특징을 나타내는 벡터이고, 표준 잠재 벡터로 이미지 특징을 나타내어, 이미지 특징 간의 연관 관계를 분리함으로써 특징이 얽히는 현상을 방지할 수 있다.

단계(309)에서, 형상 계수 샘플 세트 및 표준 잠재 벡터 샘플 세트를 제4 샘플 데이터로 사용하여 제5 초기 모델에 대해 트레이닝을 수행하여 잠재 벡터 생성 모델을 얻는다.

본 실시예에서, 상기 수행 주체는 형상 계수 샘플 세트 및 표준 잠재 벡터 샘플 세트를 얻은 후, 형상 계수 샘플 세트 및 표준 잠재 벡터 샘플 세트를 제4 샘플 데이터로 사용하여 제5 초기 모델에 대해 트레이닝을 수행하여 잠재 벡터 생성 모델을 얻을 수 있다. 구체적으로, 다음과 같은 트레이닝 단계를 수행할 수 있으며, 즉 형상 계수 샘플 세트 중의 형상 계수 샘플을 제5 초기 모델에 입력하여 제5 초기 모델에 의해 출력된 각각의 형상 계수 샘플에 대응되는 잠재 벡터를 얻고, 제5 초기 모델에 의해 출력된 잠재 벡터와 표준 잠재 벡터 샘플 세트 중의 표준 잠재 벡터를 비교하여 제5 초기 모델의 정확도를 얻어, 정확도와 기설정된 정확도 임계값을 비교하되, 예시적으로 기설정된 정확도 임계값은 80 %이고, 제5 초기 모델의 정확도가 기설정된 정확도 임계값보다 크면 제5 초기 모델을 잠재 벡터 생성 모델로 결정하며, 제5 초기 모델의 정확도가 기설정된 정확도 임계값보다 작으면 제5 초기 모델의 파라미터를 조정하고, 계속하여 트레이닝한다. 제5 초기 모델은 형상 계수에 의해 잠재 벡터를 생성하는 모델일 수 있고, 본 발명은 이에 대해 한정하지 않는다.

도 3으로부터 볼 수 있다시피, 도 2에 대응되는 실시예에 비해, 본 실시예에서의 가상 형상 생성 모델의 트레이닝 방법은 형상 계수 샘플 세트 및 표준 잠재 벡터 샘플 세트를 기반으로 잠재 벡터 생성 모델을 트레이닝하여 얻고, 잠재 벡터 생성 모델을 기반으로 잠재 벡터를 생성할 수도 있으며 또한 상기 잠재 벡터를 이용하여 가상 형상을 생성함으로써 가상 형상 생성의 유연성을 향상시킨다.

또한 계속하여 도 5를 참조하면, 본 발명에 따른 표준 이미지 샘플 세트 및 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻는 방법의 일 실시예의 흐름(500)을 도시한다. 상기 이미지 생성 모델을 얻는 방법은 하기와 같은 단계를 포함한다.

단계(501)에서, 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 제1 초기 모델의 변환 네트워크에 입력하여 제1 초기 잠재 벡터를 얻는다.

본 실시예에서, 상기 수행 주체는 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 제1 초기 모델의 변환 네트워크에 입력하여 제1 초기 잠재 벡터를 얻을 수 있다. 여기서, 변환 네트워크는 제1 초기 모델 중 랜덤 벡터를 잠재 벡터로 변환하는 네트워크이다. 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 제1 초기 모델에 입력하고, 제1 초기 모델은 우선 변환 네트워크를 이용하여 입력된 랜덤 벡터를 제1 초기 잠재 벡터로 변환하여 제1 초기 잠재 벡터가 나타내는 특징 간의 연관 관계를 분리시킴으로써 후속의 이미지 생성 시 특징이 얽히는 현상을 방지하여 이미지 생성 모델의 정확도를 향상시킨다.

단계(502)에서, 제1 초기 잠재 벡터를 제1 초기 모델의 생성 네트워크에 입력하여 초기 이미지를 얻는다.

본 실시예에서, 상기 수행 주체는 제1 초기 잠재 벡터를 얻은 후, 제1 초기 잠재 벡터를 제1 초기 모델의 생성 네트워크에 입력하여 초기 이미지를 얻을 수 있다. 구체적으로, 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 제1 초기 모델에 입력하고, 제1 초기 모델은 변환 네트워크를 이용하여 제1 초기 잠재 벡터를 얻은 후, 제1 초기 잠재 벡터를 입력 데이터로 사용한 다음 제1 초기 모델의 생성 네트워크에 입력하여, 생성 네트워크에 의해 대응하는 초기 이미지를 출력할 수 있다. 여기서, 생성 네트워크는 제1 초기 모델 중 잠재 벡터를 이미지로 변환하는 네트워크이고, 생성 네트워크에 의해 생성된 초기 이미지는 제1 초기 모델에 의해 생성된 초기 이미지이다.

단계(503)에서, 초기 이미지 및 표준 이미지 샘플 세트 중의 표준 이미지에 기반하여 제1 손실값을 얻는다.

본 실시예에서, 상기 수행 주체는 초기 이미지를 얻은 후, 초기 이미지 및 표준 이미지 샘플 세트 중의 표준 이미지에 기반하여 제1 손실값을 얻을 수 있다. 구체적으로, 초기 이미지의 데이터 분포 및 표준 이미지의 데이터 분포를 얻어, 초기 이미지의 데이터 분포 및 표준 이미지의 데이터 분포 간의 발산 거리를 제1 손실값으로 결정할 수 있다.

상기 수행 주체는 제1 손실값을 얻은 후, 제1 손실값과 기설정된 제1 손실 임계값을 비교할 수 있으며, 제1 손실값이 기설정된 제1 손실 임계값보다 작으면 단계(504)를 수행하고, 제1 손실값이 기설정된 제1 손실 임계값보다 크거나 같으면 단계(505)를 수행한다. 여기서, 예시적으로 기설정된 제1 손실 임계값은 0.05이다.

단계(504)에서, 제1 손실값이 기설정된 제1 손실 임계값보다 작은 것에 응답하여 제1 초기 모델을 상기 이미지 생성 모델로 결정한다.

본 실시예에서, 상기 수행 주체는 제1 손실값이 기설정된 제1 손실 임계값보다 작은 것에 응답하여 제1 초기 모델을 상기 이미지 생성 모델로 결정할 수 있다. 구체적으로, 제1 손실값이 기설정된 제1 손실 임계값보다 작은 것에 응답할 경우, 제1 초기 모델에 의해 출력된 초기 이미지의 데이터 분포는 표준 이미지의 데이터 분포에 부합되며, 이때 제1 초기 모델의 출력은 요구에 부합되어 제1 초기 모델의 트레이닝이 완료됨으로써 제1 초기 모델을 이미지 생성 모델로 결정한다.

단계(505)에서, 제1 손실값이 제1 손실 임계값보다 크거나 같은 것에 응답하여 제1 초기 모델의 파라미터를 조정하고, 계속하여 제1 초기 모델을 트레이닝한다.

본 실시예에서, 상기 수행 주체는 제1 손실값이 제1 손실 임계값보다 크거나 같은 것에 응답하여 제1 초기 모델의 파라미터를 조정하고, 계속하여 제1 초기 모델을 트레이닝할 수 있다. 구체적으로, 제1 손실값이 제1 손실 임계값보다 크거나 같은 것에 응답할 경우, 제1 초기 모델에 의해 출력된 초기 이미지의 데이터 분포는 표준 이미지의 데이터 분포에 부합되지 않으며, 이때 제1 초기 모델의 출력은 요구에 부합되지 않으므로 제1 손실값을 기반으로 제1 초기 모델에서 역방향 전파를 수행하여 제1 초기 모델의 파라미터를 조정하고, 계속하여 제1 초기 모델을 트레이닝할 수 있다.

도 5로부터 볼 수 있다시피, 본 실시예에서의 이미지 생성 모델을 얻는 방법은 얻은 이미지 생성 모델이 잠재 벡터를 기반으로 실제 데이터 분포에 부합되는 대응하는 이미지를 생성할 수 있도록 하여 상기 이미지 생성 모델에 기반하여 가상 형상을 추가로 얻는데 편이해지도록 함으로써 가상 형상 생성 모델의 정확도를 향상시킬 수 있다.

또한 계속하여 도 6을 참조하면, 본 발명에 따른 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻는 방법의 일 실시예의 흐름(600)을 도시한다. 상기 이미지 인코딩 모델을 얻는 방법은 하기와 같은 단계를 포함한다.

단계(601)에서, 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 이미지 생성 모델의 변환 네트워크에 입력하여 테스트 잠재 벡터 샘플 세트를 얻는다.

본 실시예에서, 상기 수행 주체는 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 이미지 생성 모델의 변환 네트워크에 입력하여 테스트 잠재 벡터 샘플 세트를 얻을 수 있다. 여기서, 이미지 생성 모델은 랜덤 벡터를 입력으로 이미지 생성 모델 중의 변환 네트워크를 이용하여 랜뎀 벡터를 잠재 벡터로 변환할 수 있다. 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 이미지 생성 모델에 입력하고, 이미지 생성 모델은 우선 변환 네트워크를 이용하여 입력된 랜덤 벡터를 대응하는 테스트 잠재 벡터로 변환하여 얻은 복수의 테스트 잠재 벡터를 테스트 잠재 벡터 샘플 세트로 결정한다.

단계(602)에서, 테스트 잠재 벡터 샘플 세트 중의 테스트 잠재 벡터 샘플을 이미지 생성 모델의 생성 네트워크에 입력하여 테스트 이미지 샘플 세트를 얻는다.

본 실시예에서, 상기 수행 주체는 테스트 잠재 벡터 샘플 세트를 얻은 후, 테스트 잠재 벡터 샘플 세트 중의 테스트 잠재 벡터 샘플을 이미지 생성 모델의 생성 네트워크에 입력하여 상기 테스트 이미지 샘플 세트를 얻을 수 있다. 구체적으로, 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 이미지 생성 모델에 입력하고, 이미지 생성 모델은 변환 네트워크를 이용하여 테스트 잠재 벡터 샘플을 얻은 후, 테스트 잠재 벡터 샘플을 입력 데이터로 사용한 다음 이미지 생성 모델의 생성 네트워크에 입력하여, 생성 네트워크에 의해 대응하는 테스트 이미지 샘플을 출력함으로써, 얻은 복수의 테스트 이미지 샘플을 테스트 이미지 샘플 세트로 결정할 수 있다.

단계(603)에서, 테스트 이미지 샘플 세트 중의 테스트 이미지 샘플을 제2 초기 모델에 입력하여 제2 초기 잠재 벡터를 얻는다.

본 실시예에서, 상기 수행 주체는 테스트 이미지 샘플 세트를 얻은 후, 테스트 이미지 샘플 세트 중의 테스트 이미지 샘플을 제2 초기 모델에 입력하여 제2 초기 잠재 벡터를 얻을 수 있다. 구체적으로, 테스트 이미지 샘플 세트 중의 테스트 이미지 샘플을 입력 데이터로 사용하여 제2 초기 모델에 입력하고 제2 초기 모델의 출력단으로부터 대응하는 제2 초기 잠재 벡터를 출력할 수 있다.

단계(604)에서, 제2 초기 잠재 벡터 및 테스트 잠재 벡터 샘플 세트 중 테스트 이미지 샘플에 대응되는 테스트 잠재 벡터 샘플에 기반하여 제2 손실값을 얻는다.

본 실시예에서, 상기 수행 주체는 제2 초기 잠재 벡터를 얻은 후, 제2 초기 잠재 벡터 및 테스트 잠재 벡터 샘플 세트 중 테스트 이미지 샘플에 대응되는 테스트 잠재 벡터 샘플에 기반하여 제2 손실값을 얻을 수 있다. 구체적으로, 먼저 테스트 잠재 벡터 샘플 세트 중 제2 초기 모델에 입력된 테스트 이미지 샘플에 대응되는 테스트 잠재 벡터 샘플을 획득하고, 제2 초기 잠재 벡터와 테스트 잠재 벡터 샘플 간의 손실값을 계산하여 제2 손실값으로 사용할 수 있다.

상기 수행 주체는 제2 손실값을 얻은 후, 제2 손실값과 기설정된 제2 손실 임계값을 비교할 수 있으며, 제2 손실값이 기설정된 제2 손실 임계값보다 작으면 단계(605)를 수행하고, 제2 손실값이 기설정된 제2 손실 임계값보다 크거나 같으면 단계(606)을 수행한다. 여기서, 예시적으로 기설정된 제2 손실 임계값은 0.05이다.

단계(605)에서, 제2 손실값이 기설정된 제2 손실 임계값보다 작은 것에 응답하여 제2 초기 모델을 이미지 인코딩 모델로 결정한다.

본 실시예에서, 상기 수행 주체는 제2 손실값이 기설정된 제2 손실 임계값보다 작은 것에 응답하여 제2 초기 모델을 이미지 인코딩 모델로 결정할 수 있다. 구체적으로, 제2 손실값이 기설정된 제2 손실 임계값보다 작은 것에 응답할 경우, 제2 초기 모델에 의해 출력된 제2 초기 잠재 벡터는 테스트 이미지 샘플에 대응되는 정확한 잠재 벡터이고, 이때 제2 초기 모델의 출력은 요구에 부합되어 제2 초기 모델의 트레이닝이 완료됨으로써 제2 초기 모델을 이미지 인코딩 모델로 결정한다.

단계(606)에서, 제2 손실값이 기설정된 제2 손실 임계값보다 크거나 같은 것에 응답하여 제2 초기 모델의 파라미터를 조정하고, 계속하여 제2 초기 모델을 트레이닝한다.

본 실시예에서, 상기 수행 주체는 제2 손실값이 기설정된 제2 손실 임계값보다 크거나 같은 것에 응답하여 제2 초기 모델의 파라미터를 조정하고, 계속하여 제2 초기 모델을 트레이닝할 수 있다. 구체적으로, 제2 손실값이 제2 손실 임계값보다 크거나 같은 것에 응답할 경우, 제2 초기 모델에 의해 출력된 제2 초기 잠재 벡터는 테스트 이미지 샘플에 대응되는 정확한 잠재 벡터가 아니며, 이때 제2 초기 모델의 출력은 요구에 부합되지 않으므로, 제2 손실값을 기반으로 제2 초기 모델에서 역방향 전파를 수행하여 제2 초기 모델의 파라미터를 조정하고, 계속하여 제2 초기 모델을 트레이닝할 수 있다.

도 6으로부터 볼 수 있다시피, 본 실시예에서의 이미지 인코딩 모델을 얻는 방법은, 얻은 이미지 인코딩 모델이 이미지를 기반으로 대응하는 정확한 잠재 벡터를 생성할 수 있도록 하여, 상기 이미지 인코딩 모델에 기반하여 가상 형상을 추가로 얻는데 편이해지도록 함으로써 가상 형상 생성 모델의 정확도를 향상시킬 수 있다.

또한 계속하여 도 7을 참조하면, 본 발명에 따른 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻는 방법의 일 실시예의 흐름(700)을 도시한다. 상기 이미지 편집 모델 방법은 하기와 같은 단계를 포함한다.

단계(701)에서, 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 초기 다중 모드 공간 벡터로 인코딩한다.

본 실시예에서, 상기 수행 주체는 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 초기 다중 모드 공간 벡터로 인코딩할 수 있다. 여기서, 미리 트레이닝된 이미지 텍스트 매칭 모델은 ERNIE-ViL(Enhanced Representation from kNowledge IntEgration) 모델일 수 있고, ERNIE-ViL 모델은 장면 그래프 파싱을 기반으로 하는 다중 모드 표현 모델로, 시각과 언어의 정보를 결합하여 그림과 텍스트의 매칭 값을 계산할 수 있으며 그림과 텍스트를 다중 모드 공간 벡터로 인코딩할 수도 있다. 구체적으로, 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 미리 트레이닝된 이미지 텍스트 매칭 모델에 입력하여 미리 트레이닝된 이미지 텍스트 매칭 모델을 기반으로 표준 이미지 샘플 및 설명 텍스트 샘플을 초기 다중 모드 공간 벡터로 인코딩하고 상기 초기 다중 모드 공간 벡터를 출력할 수 있다.

단계(702)에서, 초기 다중 모드 공간 벡터를 제3 초기 모델에 입력하여 제1 잠재 벡터 바이어스 값을 얻는다.

본 실시예에서, 상기 수행 주체는 초기 다중 모드 공간 벡터를 얻은 후, 초기 다중 모드 공간 벡터를 제3 초기 모델에 입력하여 제1 잠재 벡터 바이어스 값을 얻을 수 있다. 구체적으로, 초기 다중 모드 공간 벡터를 입력 데이터로 사용하여 제3 초기 모델에 입력하고 제3 초기 모델의 출력단으로부터 제1 잠재 벡터 바이어스 값을 출력할 수 있고, 여기서 제1 잠재 벡터 바이어스 값은 표준 이미지 샘플 및 설명 텍스트 샘플의 차이 정보를 나타낸다.

단계(703)에서, 제1 잠재 벡터 바이어스 값을 사용하여 표준 잠재 벡터 샘플을 수정하여 합성 잠재 벡터를 얻는다.

본 실시예에서, 상기 수행 주체는 제1 잠재 벡터 바이어스 값을 얻은 후, 제1 잠재 벡터 바이어스 값을 사용하여 표준 잠재 벡터 샘플을 수정하여 합성 잠재 벡터를 얻을 수 있다. 여기서, 제1 잠재 벡터 바이어스 값은 표준 이미지 샘플 및 설명 텍스트 샘플의 차이 정보를 나타내고, 상기 차이 정보를 기반으로 표준 잠재 벡터 샘플을 수정하여 상기 차이 정보를 결합한 수정된 표준 잠재 벡터 샘플을 얻어, 수정된 표준 잠재 벡터 샘플을 합성 잠재 벡터로 결정할 수 있다.

단계(704)에서, 합성 잠재 벡터를 이미지 생성 모델에 입력하여 합성 이미지를 얻는다.

본 실시예에서, 상기 수행 주체는 합성 잠재 벡터를 얻은 후, 합성 잠재 벡터를 이미지 생성 모델에 입력하여 합성 이미지를 얻을 수 있다. 구체적으로, 합성 잠재 벡터를 입력 데이터로 사용하여 이미지 생성 모델에 입력하고 이미지 생성 모델의 출력단으로부터 대응하는 합성 이미지를 출력할 수 있다.

단계(705)에서, 미리 트레이닝된 이미지 텍스트 매칭 모델에 기반하여 합성 이미지와 설명 텍스트 샘플의 매칭도를 계산한다.

본 실시예에서, 상기 수행 주체합성 이미지를 얻은 후, 미리 트레이닝된 이미지 텍스트 매칭 모델에 기반하여 합성 이미지와 설명 텍스트 샘플의 매칭도를 계산할 수 있다. 여기서, 미리 트레이닝된 이미지 텍스트 매칭 모델은 그림과 텍스트의 매칭값을 계산할 수 있으므로, 합성 이미지와 설명 텍스트 샘플을 입력 데이터로 사용하여 미리 트레이닝된 이미지 텍스트 매칭 모델에 입력하고, 미리 트레이닝된 이미지 텍스트 매칭 모델을 기반으로 합성 이미지와 설명 텍스트 샘플의 매칭도를 계산함으로써 미리 트레이닝된 이미지 텍스트 매칭 모델의 출력단으로부터 계산된 매칭도를 출력할 수 있다.

상기 수행 주체는 합성 이미지와 설명 텍스트 샘플의 매칭도를 얻은 후, 매칭도와 기설정된 매칭 임계값을 비교할 수 있으며, 매칭도가 기설정된 매칭 임계값보다 크면 단계(706)을 수행하고, 매칭도가 기설정된 매칭 임계값보다 작거나 같으면 단계(707)을 수행한다. 여기서, 예시적으로 기설정된 매칭 임계값은 90 %이다.

단계(706)에서, 매칭도가 기설정된 매칭 임계값보다 큰 것에 응답하여 제3 초기 모델을 이미지 편집 모델로 결정한다.

본 실시예에서, 상기 수행 주체는 매칭도가 기설정된 매칭 임계값보다 큰 것에 응답하여 제3 초기 모델을 이미지 편집 모델로 결정할 수 있다. 구체적으로, 매칭도가 기설정된 매칭 임계값보다 큰 것에 응답할 경우, 제3 초기 모델에 의해 출력된 제1 잠재 바이어스 값은 초기 다중 모드 공간 벡터 중의 이미지 및 텍스트 간의 실제 차이이고, 이때 제3 초기 모델의 출력은 요구에 부합되어, 제3 초기 모델의 트레이닝이 완료됨으로써 제3 초기 모델을 이미지 편집 모델로 결정한다.

단계(707)에서, 매칭도가 매칭 임계값보다 작거나 같은 것에 응답하여 합성 이미지와 설명 텍스트 샘플을 기반으로 업데이트된 다중 모드 공간 벡터를 얻고, 업데이트된 다중 모드 공간 벡터를 초기 다중 모드 공간 벡터로 사용하며 합성 잠재 벡터를 표준 잠재 벡터 샘플로 사용하여 제3 초기 모델의 파라미터를 조정하고, 계속하여 제3 초기 모델을 트레이닝한다.

본 실시예에서, 상기 수행 주체는 매칭도가 매칭 임계값보다 작거나 같은 것에 응답하여 제3 초기 모델의 파라미터를 조정하고, 계속하여 제3 초기 모델을 트레이닝할 수 있다. 구체적으로, 매칭도가 매칭 임계값보다 작거나 같은 것에 응답할 경우, 제3 초기 모델에 의해 출력된 제1 잠재 벡터 바이어스 값은 초기 다중 모드 공간 벡터 중의 이미지와 텍스트 간의 실제 차이가 아니며, 이때 제3 초기 모델의 출력은 요구에 부합되지 않으므로, 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 합성 이미지와 설명 텍스트 샘플을 업데이트된 다중 모드 공간 벡터로 인코딩하고, 업데이트된 다중 모드 공간 벡터를 초기 다중 모드 공간 벡터로 사용하며 합성 잠재 벡터를 표준 잠재 벡터 샘플로 사용하여 매칭도를 기반으로 제3 초기 모델에서 역방향 전파를 수행하여 제3 초기 모델의 파라미터를 조정하고, 계속하여 제3 초기 모델을 트레이닝할 수 있다.

도 7로부터 볼 수 있다시피, 본 실시예에서의 이미지 편집 모델을 얻는 방법은, 얻은 이미지 편집 모델이 입력된 이미지 및 텍스트를 기반으로 대응하는 정확한 이미지 및 텍스트 차이 정보를 생성할 수 있도록 하여, 상기 이미지 편집 모델에 기반하여 가상 형상을 추가로 얻는데 편이해지도록 함으로써 가상 형상 생성 모델의 정확도를 향상시킬 수 있다.

또한 계속하여 도 8을 참조하면, 본 발명에 따른 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻는 방법의 일 실시예의 흐름(800)을 도시한다. 상기 가상 형상 생성 모델을 얻는 방법은 하기와 같은 단계를 포함한다.

단계(801)에서, 표준 이미지 샘플을 이미지 인코딩 모델에 입력하여 표준 잠재 벡터 샘플 세트를 얻는다.

본 실시예에서, 상기 수행 주체는 표준 이미지 샘플을 이미지 인코딩 모델에 입력하여 표준 잠재 벡터 샘플 세트를 얻을 수 있다. 구체적으로, 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 입력 데이터로 사용하여 이미지 인코딩 모델에 입력하고 이미지 인코딩 모델의 출력단으로부터 표준 이미지 샘플에 대응되는 표준 잠재 벡터를 출력하여, 출력된 복수의 표준 잠재 벡터를 표준 잠재 벡터 샘플 세트로 결정할 수 있다. 여기서, 표준 잠재 벡터는 표준 이미지 특징을 나타내는 벡터이고, 표준 잠재 벡터로 이미지 특징을 나타내어, 이미지 특징 간의 연관 관계를 분리함으로써 특징이 얽히는 현상을 방지할 수 있다.

단계(802)에서, 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 표준 이미지 샘플과 설명 텍스트 샘플을 다중 모드 공간 벡터로 인코딩한다.

본 실시예에서, 상기 수행 주체는 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 표준 이미지 샘플과 설명 텍스트 샘플을 다중 모드 공간 벡터로 인코딩할 수 있다. 여기서, 미리 트레이닝된 이미지 텍스트 매칭 모델은 ERNIE-ViL(Enhanced Representation from kNowledge IntEgration) 모델일 수 있고, ERNIE-ViL 모델은 장면 그래프 파싱을 기반으로 하는 다중 모드 표현 모델로, 시각과 언어의 정보를 결합하여 그림과 텍스트를 다중 모드 공간 벡터로 인코딩할 수 있다. 구체적으로, 표준 이미지 샘플 및 설명 텍스트 샘플을 미리 트레이닝된 이미지 텍스트 매칭 모델에 입력하여 미리 트레이닝된 이미지 텍스트 매칭 모델을 기반으로 표준 이미지 샘플 및 설명 텍스트 샘플을 다중 모드 공간 벡터로 인코딩하고 상기 다중 모드 공간 벡터를 출력할 수 있다.

단계(803)에서, 다중 모드 공간 벡터를 이미지 편집 모델에 입력하여 제2 잠재 벡터 바이어스 값을 얻는다.

본 실시예에서, 상기 수행 주체는 다중 모드 공간 벡터를 얻은 후, 다중 모드 공간 벡터를 이미지 편집 모델에 입력하여 제2 잠재 벡터 바이어스 값을 얻을 수 있다. 구체적으로, 다중 모드 공간 벡터를 입력 데이터로 사용하여 이미지 편집 모델에 입력하고 이미지 편집 모델의 출력단으로부터 제2 잠재 벡터 바이어스 값을 출력할 수 있으며, 여기서 제2 잠재 벡터 바이어스 값은 표준 이미지 샘플 및 설명 텍스트 샘플의 차이 정보를 나타낸다.

단계(804)에서, 제2 잠재 벡터 바이어스 값을 사용하여 표준 잠재 벡터 샘플 세트 중 표준 이미지 샘플에 대응되는 표준 잠재 벡터 샘플을 수정하여 타깃 잠재 벡터 샘플 세트를 얻는다.

본 실시예에서, 상기 수행 주체는 제2 잠재 벡터 바이어스 값을 얻은 후, 제2 잠재 벡터 바이어스 값을 사용하여 표준 잠재 벡터 샘플 세트 중 표준 이미지 샘플에 대응되는 표준 잠재 벡터 샘플을 수정하여 타깃 잠재 벡터 샘플 세트를 얻을 수 있다. 여기서, 제2 잠재 벡터 바이어스 값은 표준 이미지 샘플 및 설명 텍스트 샘플의 차이 정보를 나타내고, 먼저 표준 잠재 벡터 샘플 세트 중 표준 이미지 샘플에 대응되는 표준 잠재 벡터 샘플을 찾아, 상기 차이 정보를 기반으로 표준 잠재 벡터 샘플을 수정함으로써 상기 차이 정보를 결합한 수정된 표준 잠재 벡터 샘플을 얻어, 수정된 표준 잠재 벡터 샘플을 타깃 잠재 벡터로 결정하고, 얻은 표준 이미지 샘플에 대응하는 복수의 타깃 잠재 벡터를 타깃 잠재 벡터 샘플 세트로 결정할 수 있다.

단계(805)에서, 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 이미지 생성 모델에 입력하여 타깃 잠재 벡터 샘플에 대응되는 이미지를 얻는다.

본 실시예에서, 상기 수행 주체는 타깃 잠재 벡터 샘플 세트를 얻은 후, 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 이미지 생성 모델에 입력하여 타깃 잠재 벡터 샘플에 대응되는 이미지를 얻을 수 있다. 구체적으로, 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 입력 데이터로 사용하여 이미지 생성 모델에 입력하고 이미지 생성 모델의 출력단으로부터 타깃 잠재 벡터 샘플에 대응되는 이미지를 출력할 수 있다.

단계(806)에서, 이미지를 미리 트레이닝된 형상 계수 생성 모델에 입력하여 타깃 형상 계수 샘플 세트를 얻는다.

본 실시예에서, 상기 수행 주체는 타깃 잠재 벡터 샘플에 대응되는 이미지를 얻은 후, 이미지를 미리 트레이닝된 형상 계수 생성 모델에 입력하여 타깃 형상 계수 샘플 세트를 얻을 수 있다. 구체적으로, 타깃 잠재 벡터 샘플에 대응되는 이미지를 입력 데이터로 사용하여 미리 트레이닝된 형상 계수 생성 모델에 입력하고 형상 계수 생성 모델의 출력단으로부터 이미지에 대응되는 형상 계수를 출력하여 출력된 복수의 형상 계수를 형상 계수 샘플 세트로 결정할 수 있다. 여기서, 미리 트레이닝된 형상 계수 생성 모델은 PTA(Photo-to-Avatar) 모델일 수 있고, PTA 모델은 하나의 이미지를 입력한 후, 상기 이미지의 모델 베이스에 기반하여 미리 저장된 복수의 관련된 형상 베이스와 함께 계산하여, 대응하는 복수의 형상 계수를 출력할 수 있는 모델이며, 여기서 복수의 형상 계수는 상기 이미지의 모델 베이스와 각각의 미리 저장된 형상 베이스의 상이한 정도를 나타낸다.

단계(807)에서, 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 제4 초기 모델에 입력하여 테스트 형상 계수를 얻는다.

본 실시예에서, 상기 수행 주체는 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 제4 초기 모델에 입력하여 테스트 형상 계수를 얻을 수 있다. 구체적으로, 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 입력 데이터로 사용하여 제4 초기 모델에 입력하고 제4 초기 모델의 출력단으로부터 타깃 잠재 벡터 샘플에 대응되는 테스트 형상 계수를 출력할 수 있다.

단계(808)에서, 타깃 형상 계수 샘플 세트 중 타깃 잠재 벡터 샘플에 대응되는 타깃 형상 계수 샘플 및 테스트 형상 계수에 기반하여 제3 손실값을 얻는다.

본 실시예에서, 상기 수행 주체는 테스트 형상 계수를 얻은 후, 타깃 형상 계수 샘플 세트 중 타깃 잠재 벡터 샘플에 대응되는 타깃 형상 계수 샘플 및 테스트 형상 계수에 기반하여 제3 손실값을 얻을 수 있다. 구체적으로, 먼저 타깃 형상 계수 샘플 세트 중 타깃 잠재 벡터 샘플에 대응되는 타깃 형상 계수 샘플을 획득하고, 타깃 형상 계수 샘플과 테스트 형상 계수 간의 평균 제곱 오차를 계산하여 제3 손실값으로 사용할 수 있다.

상기 수행 주체는 제3 손실값을 얻은 후, 제3 손실값과 기설정된 제3 손실 임계값을 비교할 수 있으며, 제3 손실값이 기설정된 제3 손실 임계값보다 작으면 단계(809)를 수행하고, 제3 손실값이 기설정된 제3 손실 임계값보다 크거나 같으면 단계(810)을 수행한다. 여기서, 예시적으로 기설정된 제3 손실 임계값은 0.05이다.

단계(809)에서, 제3 손실값이 기설정된 제3 손실 임계값보다 작은 것에 응답하여 제4 초기 모델을 가상 형상 생성 모델로 결정한다.

본 실시예에서, 상기 수행 주체는 제3 손실값이 기설정된 제3 손실 임계값보다 작은 것에 응답하여 제4 초기 모델을 가상 형상 생성 모델로 결정할 수 있다. 구체적으로, 제3 손실값이 기설정된 제3 손실 임계값보다 작은 것에 응답할 경우, 제4 초기 모델에 의해 출력된 테스트 형상 계수는 타깃 잠재 벡터 샘플에 대응되는 정확한 형상 계수이고, 이때 제4 초기 모델의 출력은 요구에 부합되어 제4 초기 모델의 트레이닝이 완료됨으로써 제4 초기 모델을 가상 형상 생성 모델로 결정한다.

단계(810)에서, 제3 손실값이 제3 손실 임계값보다 크거나 같은 것에 응답하여 제4 초기 모델의 파라미터를 조정하고, 계속하여 제4 초기 모델을 트레이닝한다.

본 실시예에서, 상기 수행 주체는 제3 손실값이 제3 손실 임계값보다 크거나 같은 것에 응답하여 제4 초기 모델의 파라미터를 조정하고, 계속하여 제4 초기 모델을 트레이닝할 수 있다. 구체적으로, 제3 손실값이 제3 손실 임계값보다 크거나 같은 것에 응답할 경우, 제4 초기 모델에 의해 출력된 테스트 형상 계수는 타깃 잠재 벡터 샘플에 대응되는 정확한 형상 계수가 아니며, 이때 제4 초기 모델의 출력은 요구에 부합되지 않으므로, 제3 손실값을 기반으로 제4 초기 모델에서 역방향 전파를 수행하여 제4 초기 모델의 파라미터를 조정하고, 계속하여 제4 초기 모델을 트레이닝할 수 있다.

도 7로부터 볼 수 있다시피, 본 실시예에서의 가상 형상 생성 모델을 결정하는 방법은, 얻은 가상 형상 생성 모델이 입력된 잠재 벡터를 기반으로 대응하는 정확한 형상 계수를 생성할 수 있도록 하여, 상기 형상 계수에 기반하여 가상 형상을 얻는데 편이해지도록 함으로써 가상 형상 생성 모델의 효율, 유연성, 다양성을 향상시킬 수 있다.

또한 도 9를 참조하면, 본 발명에 따른 가상 형상 생성 방법의 일 실시예의 흐름(900)을 도시한다. 상기 가상 형상 생성 방법은 하기와 같은 단계를 포함한다.

단계(901)에서, 가상 형상 생성 요청을 수신한다.

본 실시예에서, 상기 수행 주체는 가상 형상 생성 요청을 수신할 수 있다. 여기서, 가상 형상 생성 요청은 음성 형태일 수 있고 문자 형태일 수도 있으며, 본 발명은 이에 대해 한정하지 않는다. 가상 형상 생성 요청은 타깃 가상 형상을 생성하기 위한 요청으로, 예시적으로 가상 형상 생성 요청은 노란색 피부, 큰 눈, 노란색 곱슬머리, 수트를 입은 가상 형상을 생성하는 내용의 텍스트이다. 가상 형상 생성 요청이 감지되면 가상 형상 생성 요청을 수신 함수에 전송할 수 있다.

단계(902)에서, 가상 형상 생성 요청에 기반하여 제1 설명 텍스트를 결정한다.

본 실시예에서, 상기 수행 주체는 가상 형상 생성 요청을 수신한 후, 가상 형상 생성 요청에 기반하여 제1 설명 텍스트를 결정할 수 있다. 구체적으로, 가상 형상 생성 요청이 음성의 형태인 것에 응답할 경우, 먼저 가상 형상 생성 요청을 음성으로부터 텍스트로 변환시키고, 다음 텍스트로부터 가상 형상을 설명하는 내용을 획득하여 제1 설명 텍스트로 결정한다. 가상 형상 생성 요청이 텍스트인 것에 응답할 경우, 가상 형상 생성 요청으로부터 가상 형상을 설명하는 내용을 획득하여 제1 설명 텍스트로 결정한다.

단계(903)에서, 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 표준 이미지 및 제1 설명 텍스트를 다중 모드 공간 벡터로 인코딩한다.

본 실시예에서, 표준 이미지는 표준 이미지 샘플 세트로부터 표준 이미지로서 취한 임의의 이미지일 수 있고, 표준 이미지 샘플 세트 중의 모든 이미지를 평균하여 표준 이미지로서 얻은 평균 이미지일 수도 있으며, 본 발명은 이에 대해 한정하지 않는다.

본 실시예에서, 상기 수행 주체는 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 표준 이미지 및 제1 설명 텍스트를 다중 모드 공간 벡터로 인코딩할 수 있다. 여기서 미리 트레이닝된 이미지 텍스트 매칭 모델은 ERNIE-ViL(Enhanced Representation from kNowledge IntEgration) 모델일 수 있고, ERNIE-ViL 모델은 장면 그래프 파싱을 기반으로 하는 다중 모드 표현 모델로, 시각과 언어의 정보를 결합하여 그림과 텍스트를 다중 모드 공간 벡터로 인코딩할 수 있다. 구체적으로, 표준 이미지 및 제1 설명 텍스트를 미리 트레이닝된 이미지 텍스트 매칭 모델에 입력하여 미리 트레이닝된 이미지 텍스트 매칭 모델을 기반으로 표준 이미지 및 제1 설명 텍스트을 다중 모드 공간 벡터로 인코딩하고 상기 다중 모드 공간 벡터를 출력할 수 있다.

단계(904)에서, 다중 모드 공간 벡터를 미리 트레이닝된 이미지 편집 모델에 입력하여 잠재 벡터 바이어스 값을 얻는다.

본 실시예에서, 상기 수행 주체는 다중 모드 공간 벡터를 얻은 후, 다중 모드 공간 벡터를 미리 트레이닝된 이미지 편집 모델에 입력하여 잠재 벡터 바이어스 값을 얻을 수 있다. 구체적으로, 다중 모드 공간 벡터를 입력 데이터로 사용하여 미리 트레이닝된 이미지 편집 모델에 입력하고 이미지 편집 모델의 출력단으로부터 잠재 벡터 바이어스 값을 출력할 수 있으며, 여기서 잠재 벡터 바이어스 값은 표준 이미지 및 제1 설명 텍스트의 차이 정보를 나타낸다.

단계(905)에서, 잠재 벡터 바이어스 값을 사용하여 표준 이미지에 대응되는 잠재 벡터를 수정하여 합성 잠재 벡터를 얻는다.

본 실시예에서, 상기 수행 주체는 잠재 벡터 바이어스 값을 얻은 후, 잠재 벡터 바이어스 값을 사용하여 표준 이미지에 대응되는 잠재 벡터를 수정하여 합성 잠재 벡터를 얻을 수 있다. 여기서, 잠재 벡터 바이어스 값은 표준 이미지 및 제1 설명 텍스트의 차이 정보를 나타내고, 먼저 표준 이미지를 미리 트레이닝된 이미지 인코딩 모델에 입력하여 표준 이미지에 대응되는 잠재 벡터를 얻고, 상기 차이 정보를 기반으로 얻은 잠재 벡터를 수정하여, 상기 차이 정보를 결합한 수정된 잠재 벡터를 얻어, 수정된 잠재 벡터를 합성 잠재 벡터로 결정할 수 있다.

단계(906)에서, 합성 잠재 벡터를 미리 트레이닝된 가상 형상 생성 모델에 입력하여 형상 계수를 얻는다.

본 실시예에서, 상기 수행 주체는 합성 잠재 벡터를 얻은 후, 합성 잠재 벡터를 미리 트레이닝된 가상 형상 생성 모델에 입력하여 형상 계수를 얻을 수 있다. 구체적으로, 합성 잠재 벡터를 입력 데이터로 사용하여 미리 트레이닝된 가상 형상 생성 모델에 입력하고 가상 형상 생성 모델의 출력단으로부터 합성 잠재 벡터에 대응되는 형상 계수를 출력할 수 있다. 여기서, 미리 트레이닝된 가상 형상 생성 모델은 도 2 내지 도 8의 트레이닝 방법에 의해 얻는다.

단계(907)에서, 형상 계수에 기반하여 제1 설명 텍스트에 대응되는 가상 형상을 생성한다.

본 실시예에서, 상기 수행 주체는 형상 계수를 얻은 후, 형상 계수에 기반하여 제1 설명 텍스트에 대응되는 가상 형상을 생성할 수 있다. 구체적으로, 복수의 표준 형상 베이스를 미리 획득할 수 있고, 예시적으로 제1 설명 텍스트에 대응되는 가상 형상은 인간형 가상 형상이며, 긴 얼굴형 베이스, 둥근 얼굴형 베이스, 사각 얼굴형 베이스 등과 같이 인간의 다양한 기본 얼굴형에 따라 복수의 표준 형상 베이스를 미리 얻고, 합성 잠재 벡터를 미리 트레이닝된 이미지 생성 모델에 입력하여 합성 잠재 벡터에 대응되는 합성 이미지를 얻으며, 합성 이미지를 기반으로 기본 모델 베이스를 얻고 기본 모델 베이스, 복수의 표준 형상 베이스 및 얻은 형상 계수를 기반으로, 하기 공식에 따라 제1 설명 텍스트에 대응되는 가상 형상을 계산하여 얻을 수 있다.

여기서, i는 모델의 정점 번호이고

는 가상 형상 제i호 정점의 합성 좌표를 나타내며

는 기본 모델 베이스 제i호 정점의 좌표를 나타내고 m은 표준 형상 베이스의 개수이며 j는 표준 형상 베이스의 번호이고

는 제j호 표준 형상 베이스의 제i호 정점의 좌표를 나타내며,

는 제j호 표준 형상 베이스에 대응되는 형상 계수를 나타낸다.

단계(908)에서, 가상 형상 업데이트 요청을 수신한다.

본 실시예에서, 상기 수행 주체는 가상 형상 업데이트 요청을 수신할 수 있다. 여기서, 가상 형상 업데이트 요청은 음성 형태일 수 있고 문자 형태일 수도 있으며, 본 발명은 이에 대해 한정하지 않는다. 가상 형상 업데이트 요청은 생성된 타깃 가상 형상을 업데이트하기 위한 요청으로, 예시적으로 가상 형상 생성 요청은 기존의 가상 형상의 노란색 곱슬머리를 검은색 긴 생머리로 업데이트하는 내용의 텍스트이다. 가상 형상 업데이트 요청이 감지되면 가상 형상 업데이트 요청을 업데이트 함수에 전송할 수 있다.

단계(909)에서, 가상 형상 업데이트 요청에 기반하여 원본 형상 계수 및 제2 설명 텍스트를 결정한다.

본 실시예에서, 상기 수행 주체는 가상 형상 업데이트 요청을 수신한 후, 가상 형상 업데이트 요청에 기반하여 원본 형상 계수 및 제2 설명 텍스트를 결정할 수 있다. 구체적으로, 가상 형상 업데이트 요청이 음성 형태인 것에 응답할 경우, 먼저 가상 형상 업데이트 요청을 음성으로부터 텍스트로 변환시키고, 다음 텍스트로부터 가상 형상을 설명하는 내용을 획득하여 제2 설명 텍스트로 결정하며 텍스트로부터 원본 형상 계수를 획득하고, 가상 형상 업데이트 요청이 텍스트인 것에 응답할 경우, 가상 형상 업데이트 요청으로부터 가상 형상을 설명하는 내용을 획득하여 제1 설명 텍스트로 결정하며 텍스트로부터 원본 형상 계수를 획득한다. 예시적으로, 원본 형상 계수는 제1 설명 텍스트에 대응되는 가상 형상의 형상 계수이다.

단계(910)에서, 원본 형상 계수를 미리 트레이닝된 잠재 벡터 생성 모델에 입력하여 원본 형상 계수에 대응되는 잠재 벡터를 얻는다.

본 실시예에서, 상기 수행 주체는 원본 형상 계수를 획득한 후, 원본 형상 계수를 미리 트레이닝된 잠재 벡터 생성 모델에 입력하여 원본 형상 계수에 대응되는 잠재 벡터를 얻을 수 있다. 구체적으로, 원본 형상 계수를 입력 데이터로 사용하여 미리 트레이닝된 잠재 벡터 생성 모델에 입력하고 잠재 벡터 생성 모델의 출력단으로부터 원본 형상 계수에 대응되는 잠재 벡터를 출력할 수 있다.

단계(911)에서, 원본 형상 계수에 대응되는 잠재 벡터를 미리 트레이닝된 이미지 생성 모델에 입력하여 원본 형상 계수에 대응되는 원본 이미지를 얻는다.

본 실시예에서, 상기 수행 주체는 원본 형상 계수에 대응되는 잠재 벡터를 획득한 후, 원본 형상 계수에 대응되는 잠재 벡터를 미리 트레이닝된 이미지 생성 모델에 입력하여 원본 형상 계수에 대응되는 원본 이미지를 얻을 수 있다. 구체적으로, 원본 형상 계수에 대응되는 잠재 벡터를 입력 데이터로 사용하여 미리 트레이닝된 이미지 생성 모델에 입력하고 이미지 생성 모델의 출력단으로부터 원본 형상 계수에 대응되는 원본 이미지를 출력할 수 있다.

단계(912)에서, 제2 설명 텍스트, 원본 이미지 및 미리 트레이닝된 가상 형상 생성 모델에 기반하여 업데이트된 가상 형상을 생성한다.

본 실시예에서, 상기 수행 주체는 제2 설명 텍스트, 원본 이미지 및 미리 트레이닝된 가상 형상 생성 모델에 기반하여 업데이트된 가상 형상을 생성할 수 있다. 구체적으로, 먼저 제2 설명 텍스트 및 원본 이미지에 기반하여 업데이트된 잠재 벡터를 얻고, 업데이트된 잠재 벡터를 미리 트레이닝된 가상 형상 생성 모델에 입력하여 업데이트된 잠재 벡터에 대응되는 형상 계수를 얻으며, 업데이트된 잠재 벡터를 미리 트레이닝된 이미지 생성 모델에 입력하여 업데이트된 잠재 벡터에 대응되는 업데이트된 이미지를 얻고, 업데이트된 이미지를 기반으로 기본 모델 베이스를 얻어 복수의 표준 형상 베이스를 미리 획득할 수 있으며, 예시적으로 제2 설명 텍스트에 대응되는 가상 형상은 인간형 가상 형상이며, 긴 얼굴형 베이스, 둥근 얼굴형 베이스, 사각 얼굴형 베이스 등과 같이 인간의 다양한 기본 얼굴형에 따라 복수의 표준 형상 베이스를 미리 얻고, 기본 모델 베이스, 복수의 표준 형상 베이스 및 얻은 형상 계수를 기반으로, 하기 공식에 따라 제2 설명 텍스트에 대응되는 업데이트된 가상 형상을 계산하여 얻을 수 있다.

여기서, i는 모델의 정점 번호이고

는 업데이트된 가상 형상 제i호 정점의 합성 좌표를 나타내며

는 제j호 표준 형상 베이스의 제i호 정점의 좌표를 나타내며

도 9로부터 볼 수 있다시피, 본 실시예에서의 가상 형상 생성 방법은 텍스트에 의해 가상 형상을 직접 생성할 수 있으므로, 가상 형상 생성 효율, 가상 형상 생성의 다양성 및 정확성을 향상시키고, 비용을 절감하며 사용자 체험을 향상시킨다.

또한 도 10을 참조하면, 상기 가상 형상 생성 모델의 트레이닝 방법의 구현으로서, 본 발명은 가상 형상 생성 모델의 트레이닝 장치의 일 실시예를 제공하며, 상기 장치 실시예는 도 2에 도시된 방법 실시예에 대응하고, 상기 장치는 구체적으로 다양한 전자 기기에 적용될 수 있다.

도 10에 도시된 바와 같이, 본 실시예의 가상 형상 생성 모델의 트레이닝 장치(1000)는 제1 획득 모듈(1001), 제1 트레이닝 모듈(1002), 제2 획득 모듈(1003), 제2 트레이닝 모듈(1004), 제3 트레이닝 모듈(1005), 제4 트레이닝 모듈(1006)을 포함할 수 있다. 여기서, 제1 획득 모듈(1001)은 테스트 이미지 세트 및 암호화된 마스크 세트를 획득하도록 구성되고; 제1 트레이닝 모듈(1002)은 표준 이미지 샘플 세트 및 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻도록 구성되며; 제2 획득 모듈(1003)은 랜덤 벡터 샘플 세트 및 이미지 생성 모델에 기반하여 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 얻도록 구성되고; 제2 트레이닝 모듈(1004)은 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻도록 구성되며; 제3 트레이닝 모듈(1005)은 표준 이미지 샘플 세트 및 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻도록 구성되고; 제4 트레이닝 모듈(1006)은 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델에 기반하여 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻도록 구성된다.

본 실시예에서, 가상 형상 생성 모델의 트레이닝 장치(1000): 제1 획득 모듈(1001), 제1 트레이닝 모듈(1002), 제2 획득 모듈(1003), 제2 트레이닝 모듈(1004), 제3 트레이닝 모듈(1005), 제4 트레이닝 모듈(1006)의 구체적인 처리 및 이로 인한 기술적 효과는 각각 도 2의 대응 실시예에서의 단계(201) 내지 단계(206)의 관련 설명을 참조할 수 있으며, 여기서 더이상 반복 서술하지 않는다.

본 실시예의 일부 선택 가능한 구현 방식에서, 가상 형상 생성 모델의 트레이닝 장치(1000)는, 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 미리 트레이닝된 형상 계수 생성 모델에 입력하여 형상 계수 샘플 세트를 얻도록 구성되는 제3 획득 모듈; 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 이미지 인코딩 모델에 입력하여 표준 잠재 벡터 샘플 세트를 얻도록 구성되는 제4 획득 모듈; 및 형상 계수 샘플 세트 및 표준 잠재 벡터 샘플 세트를 제4 샘플 데이터로 사용하여 제5 초기 모델에 대해 트레이닝을 수행하여 잠재 벡터 생성 모델을 얻도록 구성되는 제5 트레이닝 모듈을 더 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 제1 트레이닝 모듈(1002)은, 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 제1 초기 모델의 변환 네트워크에 입력하여 제1 초기 잠재 벡터를 얻도록 구성되는 제1 획득 서브 모듈; 제1 초기 잠재 벡터를 제1 초기 모델의 생성 네트워크에 입력하여 초기 이미지를 얻도록 구성되는 제2 획득 서브 모듈; 초기 이미지 및 표준 이미지 샘플 세트 중의 표준 이미지에 기반하여 제1 손실값을 얻도록 구성되는 제3 획득 서브 모듈; 제1 손실값이 기설정된 제1 손실 임계값보다 작은 것에 응답하여 제1 초기 모델을 이미지 생성 모델로 결정하도록 구성되는 제1 판단 서브 모듈; 및 제1 손실값이 제1 손실 임계값보다 크거나 같은 것에 응답하여 제1 초기 모델의 파라미터를 조정하고, 계속하여 제1 초기 모델을 트레이닝하도록 구성되는 제2 판단 서브 모듈을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 제2 획득 모듈(1003)은, 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 이미지 생성 모델의 변환 네트워크에 입력하여 테스트 잠재 벡터 샘플 세트를 얻도록 구성되는 제4 획득 서브 모듈; 및 테스트 잠재 벡터 샘플 세트 중의 테스트 잠재 벡터 샘플을 이미지 생성 모델의 생성 네트워크에 입력하여 테스트 이미지 샘플 세트를 얻도록 구성되는 제5 획득 서브 모듈을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 제2 트레이닝 모듈(1004)은, 테스트 이미지 샘플 세트 중의 테스트 이미지 샘플을 제2 초기 모델에 입력하여 제2 초기 잠재 벡터를 얻도록 구성되는 제6 획득 서브 모듈; 제2 초기 잠재 벡터 및 테스트 잠재 벡터 샘플 세트 중 테스트 이미지 샘플에 대응되는 테스트 잠재 벡터 샘플에 기반하여 제2 손실값을 얻도록 구성되는 제7 획득 서브 모듈; 제2 손실값이 기설정된 제2 손실 임계값보다 작은 것에 응답하여 제2 초기 모델을 이미지 인코딩 모델로 결정하도록 구성되는 제3 판단 서브 모듈; 및 제2 손실값이 기설정된 제2 손실 임계값보다 크거나 같은 것에 응답하여 제2 초기 모델의 파라미터를 조정하고, 계속하여 제2 초기 모델을 트레이닝하도록 구성되는 제4 판단 서브 모듈을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 제3 트레이닝 모듈(1005)은, 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 초기 다중 모드 공간 벡터로 인코딩하도록 구성되는 제1 인코딩 서브 모듈; 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 초기 다중 모드 공간 벡터로 인코딩하도록 구성되는 제8 획득 서브 모듈; 미리 트레이닝된 이미지 텍스트 매칭 모델에 기반하여 합성 이미지와 설명 텍스트 샘플의 매칭도를 계산하도록 구성되는 계산 서브 모듈; 매칭도가 기설정된 매칭 임계값보다 큰 것에 응답하여 제3 초기 모델을 상기 이미지 편집 모델로 결정하도록 구성되는 제5 판단 서브 모듈; 및 매칭도가 매칭 임계값보다 작거나 같은 것에 응답하여 합성 이미지와 설명 텍스트 샘플을 기반으로 업데이트된 다중 모드 공간 벡터를 얻고, 업데이트된 다중 모드 공간 벡터를 초기 다중 모드 공간 벡터로 사용하며 합성 잠재 벡터를 표준 잠재 벡터 샘플로 사용하여 제3 초기 모델의 파라미터를 조정하고, 계속하여 제3 초기 모델을 트레이닝하도록 구성되는 제6 판단 서브 모듈을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 제8 획득 서브 모듈은, 초기 다중 모드 공간 벡터를 제3 초기 모델에 입력하여 제1 잠재 벡터 바이어스 값을 얻도록 구성되는 제1 획득 유닛; 제1 잠재 벡터 바이어스 값을 사용하여 표준 잠재 벡터 샘플을 수정하여 합성 잠재 벡터를 얻도록 구성되는 제2 획득 유닛; 및 합성 잠재 벡터를 이미지 생성 모델에 입력하여 합성 이미지를 얻도록 구성되는 제3 획득 유닛을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 제4 트레이닝 모듈(1006)은, 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 입력 데이터로 사용하여 이미지 생성 모델, 이미지 인코딩 모델 및 이미지 편집 모델을 기반으로 타깃 형상 계수 샘플 세트 및 타깃 잠재 벡터 샘플 세트를 얻도록 구성되는 제9 획득 서브 모듈; 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 제4 초기 모델에 입력하여 테스트 형상 계수를 얻도록 구성되는 제10 획득 서브 모듈; 타깃 형상 계수 샘플 세트 중 타깃 잠재 벡터 샘플에 대응되는 타깃 형상 계수 샘플 및 테스트 형상 계수에 기반하여 제3 손실값을 얻도록 구성되는 제11 획득 서브 모듈; 제3 손실값이 기설정된 제3 손실 임계값보다 작은 것에 응답하여 제4 초기 모델을 가상 형상 생성 모델로 결정하도록 구성되는 제7 판단 서브 모듈; 및 제3 손실값이 제3 손실 임계값보다 크거나 같은 것에 응답하여 제4 초기 모델의 파라미터를 조정하고, 계속하여 제4 초기 모델을 트레이닝하도록 구성되는 제8 판단 서브 모듈을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 제9 획득 서브 모듈은, 표준 이미지 샘플을 이미지 인코딩 모델에 입력하여 표준 잠재 벡터 샘플 세트를 얻도록 구성되는 제4 획득 유닛; 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 표준 이미지 샘플과 설명 텍스트 샘플을 다중 모드 공간 벡터로 인코딩하도록 구성되는 인코딩 유닛; 다중 모드 공간 벡터를 이미지 편집 모델에 입력하여 제2 잠재 벡터 바이어스 값을 얻도록 구성되는 제5 획득 유닛; 제2 잠재 벡터 바이어스 값을 사용하여 표준 잠재 벡터 샘플 세트 중 표준 이미지 샘플에 대응되는 표준 잠재 벡터 샘플을 수정하여 타깃 잠재 벡터 샘플 세트를 얻도록 구성되는 제6 획득 유닛; 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 이미지 생성 모델에 입력하여 타깃 잠재 벡터 샘플에 대응되는 이미지를 얻도록 구성되는 제7 획득 유닛; 및 이미지를 미리 트레이닝된 형상 계수 생성 모델에 입력하여 타깃 형상 계수 샘플 세트를 얻도록 구성되는 제8 획득 유닛을 포함한다.

또한 도 11을 참조하면, 상기 가상 형상 생성 방법의 구현으로서, 본 발명은 가상 형상 생성 장치의 일 실시예를 개시하며, 상기 장치 실시예는 도 9에 도시된 방법 실시예와 대응하고, 상기 장치는 구체적으로 다양한 전자 기기에 적용될 수 있다.

도 11에 도시된 바와 같이, 본 실시예의 가상 형상 생성 장치(1100)는 제1 수신 모듈(1101), 제1 결정 모듈(1102), 제1 생성 모듈(1103)을 포함할 수 있다. 여기서, 제1 수신 모듈(1101)은 가상 형상 생성 요청을 수신하도록 구성되고; 제1 결정 모듈(1102)은 가상 형상 생성 요청에 기반하여 제1 설명 텍스트를 결정하도록 구성되며; 제1 생성 모듈(1103)은 제1 설명 텍스트, 기설정된 표준 이미지 및 미리 트레이닝된 가상 형상 생성 모델에 기반하여 제1 설명 텍스트에 대응되는 가상 형상을 생성하도록 구성된다.

본 실시예에서, 가상 형상 생성 장치(1100): 제1 수신 모듈(1101), 제1 결정 모듈(1102), 제1 생성 모듈(1103)의 구체적인 처리 및 이로 인한 기술적 효과는 각각 도 9의 대응 실시예에서의 단계(901) 내지 단계(907)의 관련 설명을 참조할 수 있으며, 여기서 더이상 반복 서술하지 않는다.

본 실시예의 일부 선택 가능한 구현 방식에서, 제1 생성 모듈(1103)은, 미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 표준 이미지 및 제1 설명 텍스트를 다중 모드 공간 벡터로 인코딩하도록 구성되는 제2 인코딩 서브 모듈; 다중 모드 공간 벡터를 미리 트레이닝된 이미지 편집 모델에 입력하여 잠재 벡터 바이어스 값을 얻도록 구성되는 제12 획득 서브 모듈; 잠재 벡터 바이어스 값을 사용하여 표준 이미지에 대응되는 잠재 벡터를 수정하여 합성 잠재 벡터를 얻도록 구성되는 제13 획득 서브 모듈; 합성 잠재 벡터를 미리 트레이닝된 가상 형상 생성 모델에 입력하여 형상 계수를 얻도록 구성되는 제14 획득 서브 모듈; 및 형상 계수에 기반하여 제1 설명 텍스트에 대응되는 가상 형상을 생성하도록 구성되는 생성 서브 모듈을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 가상 형상 생성 장치(1100)는, 가상 형상 업데이트 요청을 수신하도록 구성되는 제2 수신 모듈; 가상 형상 업데이트 요청에 기반하여 원본 형상 계수 및 제2 설명 텍스트를 결정하도록 구성되는 제2 결정 모듈; 원본 형상 계수를 미리 트레이닝된 잠재 벡터 생성 모델에 입력하여 원본 형상 계수에 대응되는 잠재 벡터를 얻도록 구성되는 제5 획득 모듈; 원본 형상 계수에 대응되는 잠재 벡터를 미리 트레이닝된 이미지 생성 모델에 입력하여 원본 형상 계수에 대응되는 원본 이미지를 얻도록 구성되는 제6 획득 모듈; 및 제2 설명 텍스트, 원본 이미지 및 미리 트레이닝된 가상 형상 생성 모델에 기반하여 업데이트된 가상 형상을 생성하도록 구성되는 제2 생성 모듈을 더 포함한다.

본 발명의 실시예에 따르면, 본 발명은 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램을 더 제공한다.

도 12는 본 발명의 실시예를 구현하기 위한 예시적인 전자 기기(1200)의 예시적 블록도를 도시한다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인용 디지털 처리, 셀룰러 폰, 스마트 폰, 웨어러블 기기, 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본문에 표시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것으로서, 본문에서 설명되거나 및/또는 요구되는 본 발명의 구현을 한정하려는 의도가 아니다.

도 12에 도시된 바와 같이, 기기(1200)는 판독 전용 메모리(ROM)(1202)에 저장된 컴퓨터 프로그램 또는 저장 유닛(1208)으로부터 랜덤 액세스 메모리(RAM)(1203)로 로딩된 컴퓨터 프로그램에 따라, 다양하고 적절한 동작 및 처리를 수행할 수 있는 컴퓨팅 유닛(1201)을 포함한다. RAM(1203)에는 또한 기기(1200)의 동작에 필요한 다양한 프로그램 및 데이터가 저장된다. 컴퓨팅 유닛(1201), ROM(1202) 및 RAM(1203)은 버스(1204)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(1205)도 버스(1204)에 연결된다.

키보드, 마우스와 같은 입력 유닛(1206); 다양한 유형의 디스플레이 장치, 스피커와 같은 출력 유닛(1207); 자기 디스크, 광 디스크와 같은 저장 유닛(1208); 및 네트워크 카드, 모뎀, 무선 통신 트랜시버와 같은 통신 유닛(1209)을 포함하는 기기(1200) 중 복수 개의 부재는 I/O 인터페이스(1205)에 연결된다. 통신 유닛(1209)은 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 통신 네트워크를 통해 다른 기기와 정보/데이터를 교환하도록 허용한다.

컴퓨팅 유닛(1201)은 처리 및 컴퓨팅 기능을 갖는 다양한 일반 및/또는 전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(1201)의 일부 예시는 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용 인공 지능(AI) 컴퓨팅 칩, 기계 학습 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP), 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만 이에 한정되지 않는다. 컴퓨팅 유닛(1201)은 가상 형상 생성 모델의 트레이닝 방법 또는 가상 형상 생성 방법과 같이, 상술한 다양한 방법 및 처리를 수행한다. 예를 들어, 일부 실시예에서, 가상 형상 생성 모델의 트레이닝 방법 또는 가상 형상 생성 방법은 저장 유닛(1208)과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1202) 및/또는 통신 유닛(1209)을 통해 기기(1200)에 로드되거나 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(1203)에 로드되어 컴퓨팅 유닛(1201)에 의해 실행될 경우, 상술한 가상 형상 생성 모델의 트레이닝 방법 또는 가상 형상 생성 방법의 하나 이상의 단계를 수행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(1201)은 다른 임의의 적절한 방식(예를 들어, 펌웨어에 의함)을 통해 가상 형상 생성 모델의 트레이닝 방법 또는 가상 형상 생성 방법을 수행하도록 구성될 수 있다.

본문에서 이상 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그램 가능 게이트 어레이(FPGA), 애플리케이션 주문형 집적 회로(ASIC), 애플리케이션 주문형 표준 제품(ASSP), 시스템 온 칩 시스템(SOC), 복합 프로그램 가능 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 프로그램 코드는 일반 컴퓨터, 전용 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공되어, 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 경우 흐름도 및/또는 블록도에 규정된 기능/동작이 실시될 수 있도록 한다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립형 소프트웨어 패키지로서 부분적으로 기계에서 실행되거나 부분적으로 원격 기계에서 실행되거나, 또는 완전히 원격 기계 또는 서버에서 실행될 수 있다.

본 발명의 컨텍스트에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기에 의해 사용되거나 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 유형 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적절한 조합을 포함할 수 있지만 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예시는 하나 이상의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기 또는 상술한 내용의 임의의 적절한 조합을 포함한다.

사용자와의 인터랙션을 제공하기 위해, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응하는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 분산 시스템 서버이거나, 블록체인이 결합된 서버일 수도 있다. 서버는 클라우드 서버이거나, 인공 지능형 기술을 가진 지능형 클라우드 컴퓨팅 서버 또는 지능형 클라우드 호스트일 수 있다.

이상 설명된 다양한 형태의 프로세스, 재배열, 추가 또는 삭제 단계를 사용할 수 있음을 이해해야 할 것이다. 예를 들어, 본 발명에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 발명에서 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수만 있으면, 본문은 이에 한정되지 않는다.

상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

가상 형상 생성 모델의 트레이닝 방법으로서,
표준 이미지 샘플 세트, 설명 텍스트 샘플 세트 및 랜덤 벡터 샘플 세트를 획득하는 단계;
상기 표준 이미지 샘플 세트 및 상기 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻는 단계;
상기 랜덤 벡터 샘플 세트 및 상기 이미지 생성 모델에 기반하여 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 얻는 단계;
상기 테스트 잠재 벡터 샘플 세트 및 상기 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻는 단계;
상기 표준 이미지 샘플 세트 및 상기 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻는 단계; 및
상기 이미지 생성 모델, 상기 이미지 인코딩 모델 및 상기 이미지 편집 모델에 기반하여 상기 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻는 단계
를 포함하는, 가상 형상 생성 모델의 트레이닝 방법.
제1항에 있어서,
상기 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 미리 트레이닝된 형상 계수 생성 모델에 입력하여 형상 계수 샘플 세트를 얻는 단계;
상기 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 상기 이미지 인코딩 모델에 입력하여 표준 잠재 벡터 샘플 세트를 얻는 단계; 및
상기 형상 계수 샘플 세트 및 상기 표준 잠재 벡터 샘플 세트를 제4 샘플 데이터로 사용하여 제5 초기 모델에 대해 트레이닝을 수행하여 잠재 벡터 생성 모델을 얻는 단계
를 더 포함하는, 가상 형상 생성 모델의 트레이닝 방법.
제1항에 있어서,
상기 표준 이미지 샘플 세트 및 상기 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻는 단계는,
상기 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 상기 제1 초기 모델의 변환 네트워크에 입력하여 제1 초기 잠재 벡터를 얻는 단계;
상기 제1 초기 잠재 벡터를 상기 제1 초기 모델의 생성 네트워크에 입력하여 초기 이미지를 얻는 단계;
상기 초기 이미지 및 상기 표준 이미지 샘플 세트 중의 표준 이미지에 기반하여 제1 손실값을 얻는 단계;
상기 제1 손실값이 기설정된 제1 손실 임계값보다 작은 것에 응답하여 상기 제1 초기 모델을 상기 이미지 생성 모델로 결정하는 단계; 및
상기 제1 손실값이 상기 제1 손실 임계값보다 크거나 같은 것에 응답하여 상기 제1 초기 모델의 파라미터를 조정하고, 계속하여 상기 제1 초기 모델을 트레이닝하는 단계
를 포함하는, 가상 형상 생성 모델의 트레이닝 방법.
제3항에 있어서,
상기 랜덤 벡터 샘플 세트 및 상기 이미지 생성 모델에 기반하여 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 얻는 단계는,
상기 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 상기 이미지 생성 모델의 변환 네트워크에 입력하여 상기 테스트 잠재 벡터 샘플 세트를 얻는 단계; 및
상기 테스트 잠재 벡터 샘플 세트 중의 테스트 잠재 벡터 샘플을 상기 이미지 생성 모델의 생성 네트워크에 입력하여 상기 테스트 이미지 샘플 세트를 얻는 단계
를 포함하는, 가상 형상 생성 모델의 트레이닝 방법.
제4항에 있어서,
상기 테스트 잠재 벡터 샘플 세트 및 상기 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻는 단계는,
상기 테스트 이미지 샘플 세트 중의 테스트 이미지 샘플을 상기 제2 초기 모델에 입력하여 제2 초기 잠재 벡터를 얻는 단계;
상기 제2 초기 잠재 벡터 및 상기 테스트 잠재 벡터 샘플 세트 중 상기 테스트 이미지 샘플에 대응되는 테스트 잠재 벡터 샘플에 기반하여 제2 손실값을 얻는 단계;
상기 제2 손실값이 기설정된 제2 손실 임계값보다 작은 것에 응답하여 상기 제2 초기 모델을 상기 이미지 인코딩 모델로 결정하는 단계; 및
상기 제2 손실값이 기설정된 제2 손실 임계값보다 크거나 같은 것에 응답하여 상기 제2 초기 모델의 파라미터를 조정하고, 계속하여 상기 제2 초기 모델을 트레이닝하는 단계
를 포함하는, 가상 형상 생성 모델의 트레이닝 방법.
제2항에 있어서,
상기 표준 이미지 샘플 세트 및 상기 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻는 단계는,
미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 상기 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 상기 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 초기 다중 모드 공간 벡터로 인코딩하는 단계;
상기 초기 다중 모드 공간 벡터를 상기 제3 초기 모델에 입력하여 상기 이미지 생성 모델 및 상기 표준 잠재 벡터 샘플 세트 중의 표준 잠재 벡터 샘플을 기반으로 합성 이미지 및 합성 잠재 벡터를 얻는 단계;
상기 미리 트레이닝된 이미지 텍스트 매칭 모델에 기반하여 상기 합성 이미지와 상기 설명 텍스트 샘플의 매칭도를 계산하는 단계;
상기 매칭도가 기설정된 매칭 임계값보다 큰 것에 응답하여 상기 제3 초기 모델을 상기 이미지 편집 모델로 결정하는 단계; 및
상기 매칭도가 상기 매칭 임계값보다 작거나 같은 것에 응답하여 상기 합성 이미지와 상기 설명 텍스트 샘플을 기반으로 업데이트된 다중 모드 공간 벡터를 얻고, 상기 업데이트된 다중 모드 공간 벡터를 상기 초기 다중 모드 공간 벡터로 사용하며 상기 합성 잠재 벡터를 상기 표준 잠재 벡터 샘플로 사용하여 상기 제3 초기 모델의 파라미터를 조정하고, 계속하여 상기 제3 초기 모델을 트레이닝하는 단계
를 포함하는, 가상 형상 생성 모델의 트레이닝 방법.
제6항에 있어서,
상기 초기 다중 모드 공간 벡터를 상기 제3 초기 모델에 입력하여 상기 이미지 생성 모델 및 상기 표준 잠재 벡터 샘플 세트 중의 표준 잠재 벡터 샘플을 기반으로 합성 이미지 및 합성 잠재 벡터를 얻는 단계는,
상기 초기 다중 모드 공간 벡터를 상기 제3 초기 모델에 입력하여 제1 잠재 벡터 바이어스 값을 얻는 단계;
상기 제1 잠재 벡터 바이어스 값을 사용하여 상기 표준 잠재 벡터 샘플을 수정하여 상기 합성 잠재 벡터를 얻는 단계; 및
상기 합성 잠재 벡터를 상기 이미지 생성 모델에 입력하여 상기 합성 이미지를 얻는 단계
를 포함하는, 가상 형상 생성 모델의 트레이닝 방법.
제1항에 있어서,
상기 이미지 생성 모델, 상기 이미지 인코딩 모델 및 상기 이미지 편집 모델에 기반하여 상기 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻는 단계는,
상기 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 상기 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 입력 데이터로 사용하여 상기 이미지 생성 모델, 상기 이미지 인코딩 모델 및 상기 이미지 편집 모델을 기반으로 타깃 형상 계수 샘플 세트 및 타깃 잠재 벡터 샘플 세트를 얻는 단계;
상기 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 상기 제4 초기 모델에 입력하여 테스트 형상 계수를 얻는 단계;
상기 타깃 형상 계수 샘플 세트 중 상기 타깃 잠재 벡터 샘플에 대응되는 타깃 형상 계수 샘플 및 상기 테스트 형상 계수에 기반하여 제3 손실값을 얻는 단계;
상기 제3 손실값이 기설정된 제3 손실 임계값보다 작은 것에 응답하여 상기 제4 초기 모델을 상기 가상 형상 생성 모델로 결정하는 단계; 및
상기 제3 손실값이 상기 제3 손실 임계값보다 크거나 같은 것에 응답하여 상기 제4 초기 모델의 파라미터를 조정하고, 계속하여 상기 제4 초기 모델을 트레이닝하는 단계
를 포함하는, 가상 형상 생성 모델의 트레이닝 방법.
제8항에 있어서,
상기 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 상기 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 입력 데이터로 사용하여 상기 이미지 생성 모델, 상기 이미지 인코딩 모델 및 상기 이미지 편집 모델을 기반으로 타깃 형상 계수 샘플 세트 및 타깃 잠재 벡터 샘플 세트를 얻는 단계는,
상기 표준 이미지 샘플을 상기 이미지 인코딩 모델에 입력하여 표준 잠재 벡터 샘플 세트를 얻는 단계;
미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 상기 표준 이미지 샘플과 상기 설명 텍스트 샘플을 다중 모드 공간 벡터로 인코딩하는 단계;
상기 다중 모드 공간 벡터를 상기 이미지 편집 모델에 입력하여 제2 잠재 벡터 바이어스 값을 얻는 단계;
상기 제2 잠재 벡터 바이어스 값을 사용하여 상기 표준 잠재 벡터 샘플 세트 중 상기 표준 이미지 샘플에 대응되는 표준 잠재 벡터 샘플을 수정하여 상기 타깃 잠재 벡터 샘플 세트를 얻는 단계;
상기 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 상기 이미지 생성 모델에 입력하여 상기 타깃 잠재 벡터 샘플에 대응되는 이미지를 얻는 단계; 및
상기 이미지를 미리 트레이닝된 형상 계수 생성 모델에 입력하여 상기 타깃 형상 계수 샘플 세트를 얻는 단계
를 포함하는, 가상 형상 생성 모델의 트레이닝 방법.
가상 형상 생성 방법으로서,
가상 형상 생성 요청을 수신하는 단계;
상기 가상 형상 생성 요청에 기반하여 제1 설명 텍스트를 결정하는 단계; 및
상기 제1 설명 텍스트, 기설정된 표준 이미지 및 제1항 내지 제9항 중 어느 한 항에 따른 미리 트레이닝된 가상 형상 생성 모델에 기반하여 상기 제1 설명 텍스트에 대응되는 가상 형상을 생성하는 단계
를 포함하는, 가상 형상 생성 방법.
제10항에 있어서,
상기 제1 설명 텍스트, 기설정된 표준 이미지 및 미리 트레이닝된 가상 형상 생성 모델에 기반하여 상기 제1 설명 텍스트에 대응되는 가상 형상을 얻는 단계는,
미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 상기 표준 이미지 및 상기 제1 설명 텍스트를 다중 모드 공간 벡터로 인코딩하는 단계;
상기 다중 모드 공간 벡터를 미리 트레이닝된 이미지 편집 모델에 입력하여 잠재 벡터 바이어스 값을 얻는 단계;
상기 잠재 벡터 바이어스 값을 사용하여 상기 표준 이미지에 대응되는 잠재 벡터를 수정하여 합성 잠재 벡터를 얻는 단계;
상기 합성 잠재 벡터를 상기 미리 트레이닝된 가상 형상 생성 모델에 입력하여 형상 계수를 얻는 단계; 및
상기 형상 계수에 기반하여 상기 제1 설명 텍스트에 대응되는 가상 형상을 생성하는 단계
를 포함하는, 가상 형상 생성 방법.
제11항에 있어서,
가상 형상 업데이트 요청을 수신하는 단계;
상기 가상 형상 업데이트 요청에 기반하여 원본 형상 계수 및 제2 설명 텍스트를 결정하는 단계;
상기 원본 형상 계수를 미리 트레이닝된 잠재 벡터 생성 모델에 입력하여 상기 원본 형상 계수에 대응되는 잠재 벡터를 얻는 단계;
상기 원본 형상 계수에 대응되는 잠재 벡터를 미리 트레이닝된 이미지 생성 모델에 입력하여 상기 원본 형상 계수에 대응되는 원본 이미지를 얻는 단계; 및
상기 제2 설명 텍스트, 상기 원본 이미지 및 상기 미리 트레이닝된 가상 형상 생성 모델에 기반하여 업데이트된 가상 형상을 생성하는 단계
를 더 포함하는, 가상 형상 생성 방법.
가상 형상 생성 모델의 트레이닝 장치로서,
표준 이미지 샘플 세트, 설명 텍스트 샘플 세트 및 랜덤 벡터 샘플 세트를 획득하도록 구성된 제1 획득 모듈;
상기 표준 이미지 샘플 세트 및 상기 랜덤 벡터 샘플 세트를 제1 샘플 데이터로 사용하여 제1 초기 모델에 대해 트레이닝을 수행하여 이미지 생성 모델을 얻도록 구성된 제1 트레이닝 모듈;
상기 랜덤 벡터 샘플 세트 및 상기 이미지 생성 모델에 기반하여 테스트 잠재 벡터 샘플 세트 및 테스트 이미지 샘플 세트를 얻도록 구성된 제2 획득 모듈;
상기 테스트 잠재 벡터 샘플 세트 및 상기 테스트 이미지 샘플 세트를 제2 샘플 데이터로 사용하여 제2 초기 모델에 대해 트레이닝을 수행하여 이미지 인코딩 모델을 얻도록 구성된 제2 트레이닝 모듈;
상기 표준 이미지 샘플 세트 및 상기 설명 텍스트 샘플 세트를 제3 샘플 데이터로 사용하여 제3 초기 모델에 대해 트레이닝을 수행하여 이미지 편집 모델을 얻도록 구성된 제3 트레이닝 모듈; 및
상기 이미지 생성 모델, 상기 이미지 인코딩 모델 및 상기 이미지 편집 모델에 기반하여 상기 제3 샘플 데이터를 사용하여 제4 초기 모델에 대해 트레이닝을 수행하여 가상 형상 생성 모델을 얻도록 구성된 제4 트레이닝 모듈
을 포함하는, 가상 형상 생성 모델의 트레이닝 장치.
제13항에 있어서,
상기 장치는,
상기 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 미리 트레이닝된 형상 계수 생성 모델에 입력하여 형상 계수 샘플 세트를 얻도록 구성된 제3 획득 모듈;
상기 표준 이미지 샘플 세트 중의 표준 이미지 샘플을 상기 이미지 인코딩 모델에 입력하여 표준 잠재 벡터 샘플 세트를 얻도록 구성된 제4 획득 모듈; 및
상기 형상 계수 샘플 세트 및 상기 표준 잠재 벡터 샘플 세트를 제4 샘플 데이터로 사용하여 제5 초기 모델에 대해 트레이닝을 수행하여 잠재 벡터 생성 모델을 얻도록 구성된 제5 트레이닝 모듈
을 더 포함하는, 가상 형상 생성 모델의 트레이닝 장치.
제13항에 있어서,
상기 제1 트레이닝 모듈은,
상기 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 상기 제1 초기 모델의 변환 네트워크에 입력하여 제1 초기 잠재 벡터를 얻도록 구성된 제1 획득 서브 모듈;
상기 제1 초기 잠재 벡터를 상기 제1 초기 모델의 생성 네트워크에 입력하여 초기 이미지를 얻도록 구성된 제2 획득 서브 모듈;
상기 초기 이미지 및 상기 표준 이미지 샘플 세트 중의 표준 이미지에 기반하여 제1 손실값을 얻도록 구성된 제3 획득 서브 모듈;
상기 제1 손실값이 기설정된 제1 손실 임계값보다 작은 것에 응답하여 상기 제1 초기 모델을 상기 이미지 생성 모델로 결정하도록 구성된 제1 판단 서브 모듈; 및
상기 제1 손실값이 상기 제1 손실 임계값보다 크거나 같은 것에 응답하여 상기 제1 초기 모델의 파라미터를 조정하고, 계속하여 상기 제1 초기 모델을 트레이닝하도록 구성된 제2 판단 서브 모듈
을 포함하는, 가상 형상 생성 모델의 트레이닝 장치.
제15항에 있어서,
상기 제2 획득 모듈은,
상기 랜덤 벡터 샘플 세트 중의 랜덤 벡터 샘플을 상기 이미지 생성 모델의 변환 네트워크에 입력하여 상기 테스트 잠재 벡터 샘플 세트를 얻도록 구성된 제4 획득 서브 모듈; 및
상기 테스트 잠재 벡터 샘플 세트 중의 테스트 잠재 벡터 샘플을 상기 이미지 생성 모델의 생성 네트워크에 입력하여 상기 테스트 이미지 샘플 세트를 얻도록 구성된 제5 획득 서브 모듈
을 포함하는, 가상 형상 생성 모델의 트레이닝 장치.
제16항에 있어서,
상기 제2 트레이닝 모듈은,
상기 테스트 이미지 샘플 세트 중의 테스트 이미지 샘플을 상기 제2 초기 모델에 입력하여 제2 초기 잠재 벡터를 얻도록 구성된 제6 획득 서브 모듈;
상기 제2 초기 잠재 벡터 및 상기 테스트 잠재 벡터 샘플 세트 중 상기 테스트 이미지 샘플에 대응되는 테스트 잠재 벡터 샘플에 기반하여 제2 손실값을 얻도록 구성된 제7 획득 서브 모듈;
상기 제2 손실값이 기설정된 제2 손실 임계값보다 작은 것에 응답하여 상기 제2 초기 모델을 상기 이미지 인코딩 모델로 결정하도록 구성된 제3 판단 서브 모듈; 및
상기 제2 손실값이 기설정된 제2 손실 임계값보다 크거나 같은 것에 응답하여 상기 제2 초기 모델의 파라미터를 조정하고, 계속하여 상기 제2 초기 모델을 트레이닝하도록 구성된 제4 판단 서브 모듈
을 포함하는, 가상 형상 생성 모델의 트레이닝 장치.
제14항에 있어서,
상기 제3 트레이닝 모듈은,
미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 상기 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 상기 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 초기 다중 모드 공간 벡터로 인코딩하도록 구성된 제1 인코딩 서브 모듈;
상기 초기 다중 모드 공간 벡터를 상기 제3 초기 모델에 입력하여 상기 이미지 생성 모델 및 상기 표준 잠재 벡터 샘플 세트 중의 표준 잠재 벡터 샘플을 기반으로 합성 이미지 및 합성 잠재 벡터를 얻도록 구성된 제8 획득 서브 모듈;
상기 미리 트레이닝된 이미지 텍스트 매칭 모델에 기반하여 상기 합성 이미지와 상기 설명 텍스트 샘플의 매칭도를 계산하도록 구성된 계산 서브 모듈;
상기 매칭도가 기설정된 매칭 임계값보다 큰 것에 응답하여 상기 제3 초기 모델을 상기 이미지 편집 모델로 결정하도록 구성된 제5 판단 서브 모듈; 및
상기 매칭도가 상기 매칭 임계값보다 작거나 같은 것에 응답하여 상기 합성 이미지와 상기 설명 텍스트 샘플을 기반으로 업데이트된 다중 모드 공간 벡터를 얻고, 상기 업데이트된 다중 모드 공간 벡터를 상기 초기 다중 모드 공간 벡터로 사용하며 상기 합성 잠재 벡터를 상기 표준 잠재 벡터 샘플로 사용하여 상기 제3 초기 모델의 파라미터를 조정하고, 계속하여 상기 제3 초기 모델을 트레이닝하도록 구성된 제6 판단 서브 모듈
을 포함하는, 가상 형상 생성 모델의 트레이닝 장치.
제18항에 있어서,
상기 제8 획득 서브 모듈은,
상기 초기 다중 모드 공간 벡터를 상기 제3 초기 모델에 입력하여 제1 잠재 벡터 바이어스 값을 얻도록 구성된 제1 획득 유닛;
상기 제1 잠재 벡터 바이어스 값을 사용하여 상기 표준 잠재 벡터 샘플을 수정하여 상기 합성 잠재 벡터를 얻도록 구성된 제2 획득 유닛; 및
상기 합성 잠재 벡터를 상기 이미지 생성 모델에 입력하여 상기 합성 이미지를 얻도록 구성된 제3 획득 유닛
을 포함하는, 가상 형상 생성 모델의 트레이닝 장치.
제13항에 있어서,
상기 제4 트레이닝 모듈은,
상기 표준 이미지 샘플 세트 중의 표준 이미지 샘플 및 상기 설명 텍스트 샘플 세트 중의 설명 텍스트 샘플을 입력 데이터로 사용하여 상기 이미지 생성 모델, 상기 이미지 인코딩 모델 및 상기 이미지 편집 모델을 기반으로 타깃 형상 계수 샘플 세트 및 타깃 잠재 벡터 샘플 세트를 얻도록 구성된 제9 획득 서브 모듈;
상기 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 상기 제4 초기 모델에 입력하여 테스트 형상 계수를 얻도록 구성된 제10 획득 서브 모듈;
상기 타깃 형상 계수 샘플 세트 중 상기 타깃 잠재 벡터 샘플에 대응되는 타깃 형상 계수 샘플 및 상기 테스트 형상 계수에 기반하여 제3 손실값을 얻도록 구성된 제11 획득 서브 모듈;
상기 제3 손실값이 기설정된 제3 손실 임계값보다 작은 것에 응답하여 상기 제4 초기 모델을 상기 가상 형상 생성 모델로 결정하도록 구성된 제7 판단 서브 모듈; 및
상기 제3 손실값이 상기 제3 손실 임계값보다 크거나 같은 것에 응답하여 상기 제4 초기 모델의 파라미터를 조정하고, 계속하여 상기 제4 초기 모델을 트레이닝하도록 구성된 제8 판단 서브 모듈
을 포함하는, 가상 형상 생성 모델의 트레이닝 장치.
제20항에 있어서,
상기 제9 획득 서브 모듈은,
상기 표준 이미지 샘플을 상기 이미지 인코딩 모델에 입력하여 표준 잠재 벡터 샘플 세트를 얻도록 구성된 제4 획득 유닛;
미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 상기 표준 이미지 샘플과 상기 설명 텍스트 샘플을 다중 모드 공간 벡터로 인코딩하도록 구성된 인코딩 유닛;
상기 다중 모드 공간 벡터를 상기 이미지 편집 모델에 입력하여 제2 잠재 벡터 바이어스 값을 얻도록 구성된 제5 획득 유닛;
상기 제2 잠재 벡터 바이어스 값을 사용하여 상기 표준 잠재 벡터 샘플 세트 중 상기 표준 이미지 샘플에 대응되는 표준 잠재 벡터 샘플을 수정하여 상기 타깃 잠재 벡터 샘플 세트를 얻도록 구성된 제6 획득 유닛;
상기 타깃 잠재 벡터 샘플 세트 중의 타깃 잠재 벡터 샘플을 상기 이미지 생성 모델에 입력하여 상기 타깃 잠재 벡터 샘플에 대응되는 이미지를 얻도록 구성된 제7 획득 유닛; 및
상기 이미지를 미리 트레이닝된 형상 계수 생성 모델에 입력하여 상기 타깃 형상 계수 샘플 세트를 얻도록 구성된 제8 획득 유닛
을 포함하는, 가상 형상 생성 모델의 트레이닝 장치.
가상 형상 생성 장치로서,
가상 형상 생성 요청을 수신하도록 구성된 제1 수신 모듈;
상기 가상 형상 생성 요청에 기반하여 제1 설명 텍스트를 결정하도록 구성된 제1 결정 모듈; 및
상기 제1 설명 텍스트, 기설정된 표준 이미지 및 제13항 내지 제21항 중 어느 한 항에 따른 미리 트레이닝된 가상 형상 생성 모델에 기반하여 상기 제1 설명 텍스트에 대응되는 가상 형상을 생성하도록 구성된 제1 생성 모듈
을 포함하는, 가상 형상 생성 장치.
제22항에 있어서,
상기 제1 생성 모듈은,
미리 트레이닝된 이미지 텍스트 매칭 모델을 사용하여 상기 표준 이미지 및 상기 제1 설명 텍스트를 다중 모드 공간 벡터로 인코딩하도록 구성된 제2 인코딩 서브 모듈;
상기 다중 모드 공간 벡터를 미리 트레이닝된 이미지 편집 모델에 입력하여 잠재 벡터 바이어스 값을 얻도록 구성된 제12 획득 서브 모듈;
상기 잠재 벡터 바이어스 값을 사용하여 상기 표준 이미지에 대응되는 잠재 벡터를 수정하여 합성 잠재 벡터를 얻도록 구성된 제13 획득 서브 모듈;
상기 합성 잠재 벡터를 상기 미리 트레이닝된 가상 형상 생성 모델에 입력하여 형상 계수를 얻도록 구성된 제14 획득 서브 모듈; 및
상기 형상 계수에 기반하여 상기 제1 설명 텍스트에 대응되는 가상 형상을 생성하도록 구성된 생성 서브 모듈
을 포함하는, 가상 형상 생성 장치.
제23항에 있어서,
상기 장치는,
가상 형상 업데이트 요청을 수신하도록 구성된 제2 수신 모듈;
상기 가상 형상 업데이트 요청에 기반하여 원본 형상 계수 및 제2 설명 텍스트를 결정하도록 구성된 제2 결정 모듈;
상기 원본 형상 계수를 미리 트레이닝된 잠재 벡터 생성 모델에 입력하여 상기 원본 형상 계수에 대응되는 잠재 벡터를 얻도록 구성된 제5 획득 모듈;
상기 원본 형상 계수에 대응되는 잠재 벡터를 미리 트레이닝된 이미지 생성 모델에 입력하여 상기 원본 형상 계수에 대응되는 원본 이미지를 얻도록 구성된 제6 획득 모듈; 및
상기 제2 설명 텍스트, 상기 원본 이미지 및 상기 미리 트레이닝된 가상 형상 생성 모델에 기반하여 업데이트된 가상 형상을 생성하도록 구성된 제2 생성 모듈
을 더 포함하는, 가상 형상 생성 장치.
전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리
를 포함하되; 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 제1항 내지 제12항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는, 전자 기기.
컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제12항 중 어느 한 항에 따른 방법을 수행하도록 하는데 사용되는, 비일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제12항 중 어느 한 항에 따른 방법을 구현하는, 컴퓨터 프로그램.