KR102663123B1 - 잠재 공간 내 노이즈 학습을 통한 가상 이미지 생성 방법 및 이를 수행하는 장치 - Google Patents

잠재 공간 내 노이즈 학습을 통한 가상 이미지 생성 방법 및 이를 수행하는 장치 Download PDF

Info

Publication number
KR102663123B1
KR102663123B1 KR1020230145898A KR20230145898A KR102663123B1 KR 102663123 B1 KR102663123 B1 KR 102663123B1 KR 1020230145898 A KR1020230145898 A KR 1020230145898A KR 20230145898 A KR20230145898 A KR 20230145898A KR 102663123 B1 KR102663123 B1 KR 102663123B1
Authority
KR
South Korea
Prior art keywords
image
generating
latent vector
noise
vector
Prior art date
Application number
KR1020230145898A
Other languages
English (en)
Inventor
김지수
정현호
Original Assignee
주식회사 유어라운드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 유어라운드 filed Critical 주식회사 유어라운드
Priority to KR1020230145898A priority Critical patent/KR102663123B1/ko
Application granted granted Critical
Publication of KR102663123B1 publication Critical patent/KR102663123B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/10Selection of transformation methods according to the characteristics of the input images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Generation (AREA)

Abstract

본 발명은 딥러닝을 이용한 가상 이미지를 생성하는 방법에 관한 것이다. 본 발명에 따른 컴퓨터 장치에서 수행되는 가상 이미지 생성 방법은 제1 이미지를 입력 받는 단계; 상기 제1 이미지를 학습된 제1 인코더에 입력하여 제1 잠재 벡터를 출력하는 단계; 상기 잠재 벡터에 대한 사용자 프롬프트를 입력으로 디노이징된 제2 잠재 벡터를 생성하는 단계; 및 상기 제2 잠재 벡터를 상기 제1 인코더에 대응되는 제1 디코더에 입력하여 가상의 제2 이미지를 출력하는 단계를 포함한다. 본 발명에 따르면, 사용자의 이미지를 기반으로 한 가상 이미지 생성 방법을 제안함으로써, 사용자의 원하는 스타일이나 특성에 맞춰진 이미지를 생성할 수 있다. 이를 통해 개인화된 컨텐츠를 제공하는 서비스나 어플리케이션에 활용될 수 있다.

Description

잠재 공간 내 노이즈 학습을 통한 가상 이미지 생성 방법 및 이를 수행하는 장치{Method for generating a virtual image using noise in latent space and computing device for the same method}
본 발명은 딥러닝을 이용한 가상 이미지를 생성하는 방법에 관한 것이다.
인공지능(AI)은 컴퓨터가 사람과 같은 학습 능력과 예측 능력을 갖추게 만드는 기술로, 다양한 분야에 걸쳐 활용되고 있다. 최근 데이터의 분포를 학습하고, 학습된 분포로부터 새로운 데이터 샘플을 생성하는 생성형 모델들이 제안되고 있다. 생성형 모델은 주로 이미지, 음성, 텍스트 등 다양한 데이터 유형의 생성 작업에 사용되고 있다.
특히 이미지의 생성과 관련하여 GAN(Generative Adversarial Network)이 제안되었으며 GAN은 생성자와 판별자의 경쟁 구조를 통해 이미지를 생성한다. 또한, DCGAN(Deep Convolutional GAN)과 같이 CNN을 GAN 구조에 통합함으로써 이미지의 특징을 더 잘 포착하고 보다 사실적인 이미지를 생성할 수 있도록 하는 모델들이 지속적으로 제안되고 있다.
또한, 이미지 편집의 품질도 향상되었다. 최근에는 텍스트와 이미지의 관계를 이해하는 모델을 통해 이미지 생성의 의미론적 부분도 강화되고 있는 추세이다.
본 발명은 사용자의 이미지를 기반으로 다양한 가상 이미지를 생성하는 방법을 제안하는 것을 목적으로 한다.
또한, 본 발명은 사용자의 요청을 정의하는 프롬프트를 이용하여 가상 이미지를 생성하는 방법을 제안하는 것을 목적으로 한다.
또한, 본 발명은 다양한 테마를 이용한 학습 네트워크를 이용하여 테마에 따른 가상 이미지를 다양하게 생성하는 방법을 제안하는 것을 목적으로 한다.
또한, 본 발명은 생성된 가상 이미지에 대한 사용자 피드백을 이용하여 보다 사실적인 가상 이미지를 생성하는 방법을 제안하는 것을 목적으로 한다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 컴퓨터 장치에서 수행되는 가상 이미지 생성 방법은 제1 이미지를 입력 받는 단계; 상기 제1 이미지를 학습된 제1 인코더에 입력하여 제1 잠재 벡터를 출력하는 단계; 상기 잠재 벡터에 대한 사용자 프롬프트를 입력으로 디노이징된 제2 잠재 벡터를 생성하는 단계; 및 상기 제2 잠재 벡터를 상기 제1 인코더에 대응되는 제1 디코더에 입력하여 가상의 제2 이미지를 출력하는 단계를 포함한다.
상기 제1 잠재 벡터에 대한 단계별 노이즈를 추가하는 단계를 더 포함하고,
상기 제2 잠재 벡터를 생성하는 단계는, 상기 노이즈가 추가된 제1 잠재 벡터를 단계별로 노이즈를 제거하여 제2 잠재 벡터를 생성하는 것이 바람직하다.
상기 제2 잠재 벡터를 생성하는 단계는, 상기 노이즈가 추가된 제1 잠재 벡터를 제2 인코더 및 제2 디코더에 통과시킴으로써 단계별로 노이즈를 제거하여 제2 잠재 벡터를 생성하는 단계를 포함한다.
상기 잠재 벡터에 대한 사용자 프롬프트를 입력으로 디노이징된 제2 잠재 벡터를 생성하는 단계는, 상기 제2 이미지의 생성을 위한 텍스트 기반의 조건을 프롬프트로 입력 받는 단계를 더 포함하는 것이 바람직하다.
상기 잠재 벡터에 대한 사용자 프롬프트를 입력으로 디노이징된 제2 잠재 벡터를 생성하는 단계는, 상기 제2 이미지의 생성을 위한 소스로 제3 이미지를 입력 받는 단계를 더 포함한다.
상기 제3 이미지를 입력 받는 단계는 제3 이미지에 대한 제1 인코더의 출력으로 제3 잠재백터를 입력 받는 것이 바람직하다.
상기 제2 인코더 및 제2 디코더는 프롬프트 또는 제3 이미지에 대한 단계별 크로스어텐션 기반의 연산을 수행하는 것이 바람직하다.
본 발명에 따르면, 사용자의 이미지를 기반으로 한 가상 이미지 생성 방법을 제안함으로써, 사용자의 원하는 스타일이나 특성에 맞춰진 이미지를 생성할 수 있다. 이를 통해 개인화된 컨텐츠를 제공하는 서비스나 어플리케이션에 활용될 수 있다.
또한, 사용자의 요청을 정의하는 프롬프트를 이용하여 이미지를 생성함으로써, 사용자가 원하는 주제나 콘셉트에 따른 이미지를 정확하고 효율적으로 생성할 수 있다.
또한, 다양한 테마를 이용한 학습 네트워크를 통해, 그 테마에 특화된 다양하고 독특한 가상 이미지를 생성할 수 있으며, 예를 들어, 특정 시대나 문화, 장르에 맞는 이미지 스타일을 쉽게 생성할 수 있다.
나아가, 생성된 가상 이미지에 대한 사용자의 피드백을 활용하여 이미지 생성 알고리즘을 개선할 수 있으며 이를 통해 시간이 지나면서 보다 사실적이고 사용자가 원하는 방향으로의 이미지 생성이 가능해 질 수 있다.
도 1은 본 발명의 일 실시예에 따른 가상 이미지 생성 시스템 구조를 나타낸 개요도이다.
도 2는 본 발명의 일 실시예에 따른 가상 이미지 생성 방법을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 가상 이미지 생성 방법을 수행하는 생성 모델의 구성을 나타낸 예시도이다.
도 4는 본 발명의 일 실시예에 따른 가상 이미지 생성 방법을 나타낸 세부 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 가상 이미지 생성 방법을 수행하는 생성 모델의 프롬프트 입력 구성을 나타낸 예시도이다.
도 6 내지 7은 본 발명의 일 실시예에 따른 가상 이미지 생성 방법을 수행하는 생성 모델의 추가 이미지 입력 구성을 나타낸 예시도이다.
도 8은 본 발명의 일 실시예에 따라 생성된 가상 이미지 인터페이스의 구체적인 예를 나타낸 예시도이다.
도 9는 본 발명의 다른 실시예에 따라 생성 모델의 가상 이미지 생성 프로세스를 나타내는 예시도이다.
도 10은 본 발명의 일 실시예에 따른 서버의 컴퓨팅 장치 형태로의 구현을 나타낸 예시도이다.
이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시 되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이외같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.
또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예에 대해 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 가상 이미지 생성 방법을 수행하는 시스템의 구성을 나타낸 도이다.
도 1을 참조하면, 서버(300)는 딥러닝 기반의 생성 모델(50)을 이용하여 가상 이미지의 생성을 위해 사용자 단말기(100)로부터 입력 받을 수 있다.
사용자는 가상 이미지를 생성하기 위한 이미지를 직접 촬영하거나 저장된 이미지 중에서 선택하여 사용자 단말기(100)를 통해 서버(300)로 소스 이미지를 송신할 수 있다. 소스 이미지에는 해상도에 따른 픽셀 차원의 데이터들 외 소스 이미지를 설명하는 메타 정보로 이미지의 촬영 장소와 관련된 정보, 촬영 시간 또는 장소와 관련된 위치 태그 정보들이 포함될 수 있다.
서버(300)는 수신한 이미지 정보를 통해 가상의 이미지를 생성하고, 생성된 가상의 이미지를 다시 사용자 단말기(100)에 송신한다.
다음, 사용자 단말기(100)는 수신한 가상 이미지를 사용자에게 제공한다.
본 실시예에서 서버(300)는 학습된 신경망을 통해 사용자가 입력한 사용자 이미지의 적어도 일부를 이용하여 가상 이미지를 생성할 수 있다.
이때, 사용자는 사용자 단말기(100)를 이용하여 사용자 이미지에서 사용자는 가상 이미지 생성에 직접적으로 이용할 부분과 이용하지 않을 부분을 선택하여 입력할 수 있다.
또는 서버가 수신된 사용자 이미지에서 일부를 추출하여 신경망(50)에 제공하여 가상 이미지 생성에 이용하도록 하는 것도 가능하다.
예를 들어 사용자가 본인이 제공한 소스 이미지의 얼굴을 이용하여 다양한 가상 이미지를 생성하는 경우 원본 이미지에서 얼굴 영역을 마스킹 하여 제외한 결과를 소스 이미지로 제공할 수 있다.
또는 서버가 별도의 신경망을 통하여 원본 이미지에서 얼굴 영역을 인식하고 해당 영역을 가리는 마스크를 적용하여 소스 이미지로 이용하는 것도 가능하다.
반대로, 사용자는 자신의 소스 이미지의 배경을 다양화하려는 경우 얼굴 영역을 제외한 배경 영역을 마스킹 하고 소스 이미지로 제공하는 것도 가능하다.
이상, 본 실시예에 따른 가상 이미지 생성 방법은 서버(300)에서 수행되는 것을 전제로 하되, 일부의 프로세스는 사용자 단말기(100)와 함께 수행하는 것도 가능하다.
이하 도 2를 참조하여 서버(300) 상에서 수행되는 본 발명의 일 실시예에 따른 가상 이미지 생성 방법에 대하여 설명한다.
먼저 생성 모델(50)은 제1 이미지를 입력 받는다(S100).
다음 생성 모델(50)은 입력된 제1 이미지에 노이즈를 추가함으로써 최종 결과물을 직접적으로 다양화할 수 있다.
이때, 생성 모델(50)은 노이즈를 잠재 공간 속에서 추가함으로 써 원래 데이터의 복잡한 구조와 패턴의 특징에 대한 영향을 제공하고, 소스 이미지의 실질적인 다양화를 추구할 수 있다.
잠재 공간(latent space)은 생성 모델(50)의 중간 단계의 표현들로 구성될 수 있다. 잠재 공간에서의 각 위치는 데이터의 특정한 특징이나 상태를 나타내며 잠재 벡터에 노이즈를 추가함으로써 생성되는 이미지나 데이터의 특징이나 스타일을 변경할 수 있다.
본 실시예에서 잠재 공간은 소스 이미지의 원본 해상도에 따른 픽셀 공간에 비하여 보다 축약된 저차원의 공간으로 정의될 수 있다.
이를 위해 생성 모델(50)은 제1 이미지를 제1 인코더(50)에 입력하여 소스 이미지를 저차원 상의 제1 잠재 벡터(a)로 출력할 수 있다.
도 3을 참조하여 본 실시예에서 생성 모델(50)의 구조에 대하여 설명한다.
본 실시예에서 생성 모델(50)은 학습 파이프라인을 고려하여 설계될 수 있으며, 생성 모델(50)은 제1 계층(50a)과 제2 계층(50b)으로 구분될 수 있다.
제1 계층(50a)은 입력된 소스 이미지를 원본 차원 그대로를 이용하고, 축약된 특징 벡터를 이용하여 원본 차원으로 복원하는 과정을 수행한다.
제2 계층(50b)은 저차원으로 축약된 소스 이미지의 잠재 벡터에 대한 노이즈 추가 및 프롬프트(62)들을 반영한 노이즈 제거 과정을 수행하는 과정을 수행한다.
본 실시예에서는 계층적인 차원에 따라 구분된 축약과 복원 및 노이즈 추가 및 제거 과정을 수행함으로써 가상 아미지가 생성될 수 있도록 하며 계층 별 동작을 구분함으로써 가상 이미지 생성에 이용되는 컴퓨터 자원들을 효율적으로 이용할 수 있도록 한다.
따라서 서버는 제1 이미지를 제1 인코더(52)에 입력하여 제1 잠재 벡터(a)를 출력한다(S200).
본 실시예에서 노이즈를 추가하는 과정은 생성 모델(50)의 다양성과 일반화 능력을 향상시킬 수 있다. 이를 통해 생성 모델(50)은 데이터의 다양한 변형과 특징을 학습하고, 더 다양한 결과물을 생성할 수 있다.
먼저 생성 모델(50)은 노이즈를 추가함으로써, 생성 모델(50)은 동일한 잠재 벡터에 대해서도 약간씩 다른 출력 결과를 들어낼 수 있다. 이때 잠재 벡터는 랜덤 노이즈 벡터가 생성 모델(50)에게 공급되어 다양한 결과물을 생성하도록 유도한다.
또한 생성 모델(50)은 노이즈를 포함시킴으로써 모델(50)은 학습 데이터에 오버피팅(overfitting)되는 것을 방지하고, 더 일반적인 특징과 패턴을 학습하도록 한다.
이는 생성 모델이 실세계의 다양한 조건과 데이터 변형에 대해 더 잘 대응할 수 있게 한다.
또한, 노이즈는 생성 모델이 잠재 공간의 다양한 영역을 탐색하도록 도와줄 수 있다. 이를 통해 생성 모델은 데이터의 다양한 특징과 변형을 학습하게 된다.
노이즈는 생성 모델(50)에서 데이터의 다양성과 일반화를 증진시키는 핵심 요소로 작용하며, 생성 모델(50)의 훈련과 성능에 긍정적인 영향으로 제공될 수 있다.
본 실시예에서 서버는 원래의 소스 이미지를 노이즈로 조금씩 변형시켜가며 최종 결과물을 만들어 낼 수 있다.
즉, 서버는 생성 모델(50)의 노이즈를 제공하는 과정과, 이를 조금씩 제거해가며 원하는 이미지나 데이터로 수렴시키는 과정을 수행할 수 있으며 소스 이미지와 노이즈가 제공된 가상 이미지의 차이를 이용하여 전체 생성 모델(50)을 학습시킬 수 있다.
구체적으로 생성 모델(50)의 제1 인코더(52)와 제2 인코더(54)는 소스 이미지를 이용한 새로운 가상 이미지를 보다 사실적으로 생성할 수 있도록 학습을 수행할 수 있다. 학습 과정에서 서버(300)는 소스 이미지의 원본 차원에서 축약된 차원 내 잠재 공간 상에서 노이즈의 추가와 제거 과정을 수행할 수 있다.
서버(300)는 소스 이미지의 잠재된 특징들이 존재하는 공간으로 잠재 공간에서 노이즈를 추가함으로써 실질적인 다양화된 가상 이미지를 생성할 수 있도록 한다.
이때, 본 실시예에서 노이즈의 추가와 제거 과정은 단계적으로 수행될 수 있다.
따라서, 본 실시예에 따른 생성 모델(50)은 종래의 GANs(Generative Adversarial Networks)나 VAEs(Variational Autoencoders)와 같은 다른 이미지 생성 모델(50)들과는 구분되어 동작할 수 있다.
본 실시예에 따른 생성 모델(50)은 반복(recurrent 또는 iterative)적인 구조를 사용한다. 이 구조를 통해 각 단계에서 이전 단계의 정보를 활용하여 이미지를 점진적으로 개선시킬 수 있다.
이하 학습된 생성 모델(50)을 이용한 가상 이미지의 생성 과정에 대하여 보다 상세히 설명한다.
도 4를 참고하면, 서버는 생성 모델(50)을 통해 제1 잠재 벡터(a)(latent vector)가 존재하는 잠재 공간에서 노이즈를 추가할 수 있다(S210).
구체적으로 원래의 잠재 공간 내 소스 이미지의 데이터 분포에 연속된 단계(timesteps)를 통해 노이즈를 추가할 수 있다. 예를 들어 가우시안 노이즈(Gaussian noise)를 추가함으로써 현재의 데이터 분포를 확산시킴으로써 새로운 확률 분포로 생성할 수 있다.
다음, 생성 모델(50)은 잠재 벡터에 대한 사용자 프롬프트(62)를 입력으로 노이즈를 제거함으로써 디노이징된 제2 잠재 벡터(b)를 생성한다(S300).
본 실시예에서 프롬프트(62)(prompt) 입력은 사용자가 원하는 특정한 특징이나 조건을 제시하여 모델(50)에게 해당 조건에 맞는 이미지를 생성하도록 지시하는 것을 의미할 수 있다.
예를 들어, 얼굴 합성을 원하는 경우에는 다음과 같은 프롬프트(62)를 사용할 수 있다.
기본적인 특징으로 "긴 머리를 가진 여성의 얼굴“, 또는 나이와 관련하여 "20대 중반의 남성“, 또는 감정 표현으로 "행복해 보이는 어린 아이“, 액세서리 를 구체적으로 정의하여 "안경을 착용한 중년 남성“을 텍스트로 입력하는 것도 가능하다.
도 5를 참고하면 프롬프트(62)는 디노이징 과정의 조건으로 입력될 수 있다.
본 실시예에서 프롬프트(62)는 모델(50)에게 생성하길 원하는 이미지의 방향성을 제공하는 역할을 수행한다.
일반적으로 프롬프트(62)의 정확성, 명확성 및 구체성에 따라 생성된 이미지의 품질이나 정확도가 달라질 수 있다.
본 실시예에서 생성 모델(50)을 통한 이미지 생성에서 프롬프트(62)의 활용은 구체적으로 다음 프로세스로 수행될 수 있다.
먼저 생성 모델(50)은 프롬프트(62)를 파싱한다. 즉, 주어진 프롬프트(62)를 해석하여 생성 모델(50)이 이해할 수 있는 형식으로 변환할 수 있다. 이 때 별도의 파싱 모델을 이용할 수 있다.
다음, 생성 모델(50)은 파싱된 프롬프트(62)의 정보를 기반으로 조건부로 이미지를 생성한다.
본 실시예에서는 조건부로 생성된 이미지가 프롬프트(62)의 요구사항을 만족하는지 사용자의 수기 평가를 수행하고, 필요한 경우 추가적인 수정을 통해 결과를 개선할 수 있도록 한다.
이러한 프롬프트(62)를 통해 사용자가 특정한 조건이나 특징에 따라 원하는 가상 이미지를 모델(50)로부터 얻을 수 있게 해준다.
또한, 도 6을 참조하면 본 실시예에서는 프롬프트(62)와 함께 추가 이미지를 직접 제공해 줄 수 있으며 추가 이미지를 추가적인 소스를 이용하여 디노이징을 수행할 수 있다.
따라서, 가상 이미지의 생성 과정에서 최초의 제1 인코더(52)에 대한 소스 이미지의 입력 단계는 생략될 수 있으며 학습 과정에만 이용되는 것도 가능하다.
이때 이미지를 제2 네트워크에 입력하기 위해서 이미지에 대해서는 별도의 축약절차로서 인코딩을 수행할 수 있다.
즉, 제3 이미지(64)의 입력을 위해서 별도의 인코더(57)를 포함할 수 있으며 이때의 인코더(57)는 제1 인코더(52)의 구조를 가질 수 있다.
즉, 생성 모델(50)은 프롬프트(62)와 이미지를 함께 사용하여 이미지 합성을 진행하고 사용자가 원하는 결과물을 얻을 수 있도록 한다.
생성 모델(50)은 텍스트 프롬프트(62)와 주어진 이미지를 기반으로 모델(50)이 새로운 이미지를 생성하거나 수정하는 데 사용될 수 있다.
예를 들어, 생성 모델(50)에 생성 조건(예를 들어, 성별, 나이, 국적, 인종 등의 설정값)을 정의하는 프롬프트(62)와 특정 배경 이미지를 제3 이미지(64)로 함께 입력하면, 생성 모델(50)은 해당 배경 이미지 위에 해당 프롬프트(62)에 따른 합성을 진행할 수 있다.
생성 모델(50)은 텍스트 프롬프트(62)와 제3 이미지(64)를 함께 고려하여 새로운 가상 이미지나 합성물을 생성하고, 모델(50)은 프롬프트(62)와 배경 이미지에 따라 합성된 가상 이미지를 결과물로 출력한다.
이런 방식의 장점은 사용자가 원하는 이미지의 컨텍스트나 배경을 정확히 지정할 수 있어서, 특정한 시나리오나 요구 사항에 맞는 더 정확한 이미지 합성이 가능하게 한다.
다시 도 4를 참고하면, 서버는 노이즈가 추가된 제1 잠재 벡터(a)에 대한 사용자 프롬프트(62)를 입력으로 단계별 디노이징을 거침으로써 제2 잠재 벡터(b)를 생성한다(S310).
본 실시예에서 생성모델(50)의 디노이징 과정은 기본적인 제2 인코더(56)/디코더(58) 백본에 크로스 어텐션 메커니즘을 추가하여 단계 별로 동작 할 수 있다.
생성 모델(50)은 입력 프롬프트(62)로 주어진 입력 (예: 언어 프롬프트(62)와 같은 다양한 모달리티에서 온 입력)을 사전 처리하기 위해, 도메인 특정 인코더(57)를 적용할 수 있으며 도메인 특정 인코더(57)는 입력을 중간 값으로 투영한다.
다음 크로스 어텐션 계층을 통한 매핑을 수행한다. 중간 값은 크로스 어텐션 계층을 통해 제2 인코더(56)/디코더(58) 내 중간 계층들로 매핑될 수 있다.
어텐션 메커니즘으로 노이즈가 추가된 제1 잠재 벡터(a)와 주어진 입력을 어텐션 가중치로 이용할 수 있다.
이때, 도 6을 참고하면 추가적인 이미지로 제3 이미지(64)가 제공된다면 도메인 특정 인코더(57)는 중간 표현으로 이미지의 특징을 캡처하는 데 도움이 되는 임베딩 또는 벡터를 생성할 수 있다.
생성 모델(50)은 제2 인코더(56)와 제2 디코더(58) 부분 모두에서 제3 이미지(64)의 정보를 반영할 수 있도록 할 수 있다.
어텐션 메커니즘은 배경 이미지의 특정 부분이 출력 이미지 생성에 얼마나 중요한지 결정하는 데 사용될 수 있다. 예를 들어, 배경 이미지의 특정 영역이 중요하면 해당 영역에 더 많은 어텐션 가중치가 부여될 수 있다.
도 7을 참고하면, 제3 이미지(64)에 대한 도메인 특정 인코더(57)는 추가적인 잠재 벡터를 추출하고 이를 제2 네트워크에 입력함으로써 얼굴이 합성된 이미지를 복원할 수 있다.
이때, 도 8을 참고하면, 배경 이미지를 합성에 이용될 영역과 이용되지 않을 영역으로 구분하는 구분 모델(미도시)을 통해 마스킹 처리할 수 있다. 이를 통해 원하는 영역에만 특정 효과나 객체를 추가하거나 변경한다.
예를 들어, 마스킹(Masking)으로 영역을 구분하기 위해 마스크를 사용할 수 있다. 구분 모델(미도시)의 세그멘테이션(Segmentation) 알고리즘을 사용하여 이미지의 특정 부분(예: 사람, 건물, 나무 등)을 자동으로 구분하고, 이를 통해 특정 객체나 배경만을 대상으로 합성을 진행할 수 있다.
잠재 공간에서 원본 얼굴의 위상을 대상 얼굴의 위상과 맞출 수 있다. 위상의 맞춤은 원본 얼굴이 잠재 공간에서 대상 얼굴의 일반적인 특징과 방향성을 취하도록 하는 것을 포함할 수 있다.
다음, 생성 모델(50)은 가상 이미지를 생성한다.
구체적으로 생성모델(50)은 노이즈가 추가된 제2 잠재 벡터(b)를 제1 인코더(52)에 대응되는 제1 디코더(54)에 입력하여 가상 이미지로 제2 이미지를 출력한다(S400).
나아가, 생성 모델(50)은 정제 과정으로 블렌딩(Blending)을 통해 지정된 영역에 합성된 이미지나 효과를 자연스럽게 통합할 수 있다. 경계가 뚜렷하지 않게 만들어 합성 결과가 더 자연스럽게 보이도록 도와줄 수 있다. 사용자가 직접 합성된 결과에 대한 피드백을 제공하여, 원하는 영역이나 효과를 수정할 수 있는 시스템을 구현할 수 있다.
이를 통해 사용자는 더 정확하고 만족스러운 합성 결과를 얻을 수 있다.
이러한 방법들을 통합하여 사용하면, 배경 이미지의 특정 영역에만 원하는 합성 효과나 객체를 추가하면서도 결과물이 자연스러워 보이도록 할 수 있다.
나아가, 도 9를 참조하면, 본 실시예에 따른 제1 인코더(52)와 제2 디코더(54)를 테마별로 구분하여 학습함으로써 테마에 따른 가상 이미지를 생성할 수 있도록 하는 것도 가능하다.
본 실시예에서 서버(300)는 이러한 가상 이미지를 생성하기 위해 테마 정보들을 수집하고 테마 정보들을 분류하여 데이터베이스 화할 수 있다.
본 실시예에 따른 서버(300)는 가상 이미지를 생성하기 위한 테마를 분류하여 데이터베이스로 관리할 수 있다.
본 실시예에서 테마는 이미지 생성 모델(50)이 특정 스타일, 콘셉트, 주제 또는 카테고리에 따라 이미지를 생성하도록 안내하는 지침 또는 주제를 의미할 수 있다.
테마는 사용자의 요구사항에 따라 다양한 이미지를 생성하는 데 도움을 주며, 서버(300)는 주어진 테마에 따라 생성 모델(50)은 특정 스타일이나 요소를 갖는 이미지를 생성한다.
예를 들어 시대별 테마로 '빅토리아 시대', '80년대 레트로', '미래 도시' 등의 테마에 따른 제4 이미지(66)들을 복수로 생성 모델(50)에 입력함으로써 학습시킬 수 있다.
또는 문화별 테마로 '한국 전통', '아프리카 전통', '남미 축제' 등의 다양한 문화와 전통을 반영하는 이미지로 생성 모델(50)을 학습시킬 수 있다.
또는 자연과 환경 테마로 '사막', '북극', '열대 우림'과 같은 특정 환경이나 지역의 자연 풍경을 중심으로 한 이미지로 생성 모델(50)을 학습시킬 수 있다.
또는 예술 스타일 테마로 '인상주의', '후기 모더니즘', '추상 예술' 등의 예술 스타일을 기반으로 한 이미지로 생성 모델(50)을 학습시킬 수 있다.
그 외 판타지적 '드래곤과 성', '외계 행성', '마법의 숲'과 같은 판타지적 요소를 포함한 이미지 생성을 요구할 수 있으며, 일상의 모멘트로 '도시의 밤', '휴식 중인 카페', '산책하는 가족'과 같이 일상의 다양한 순간을 표현하는 이미지로 생성 모델(50)을 학습시킬 수 있다.
이상의 테마는 가상 이미지 생성 과정에서 미리 신경망 모델(50)을 다양한 이미지로 테마 별 학습을 수행하고, 사용자가 선택한 테마에 대응하는 신경망 모델(50)에 사용자 이미지를 입력함으로써 테마에 따른 가상 이미지가 생성되도록 할 수 있다.
또한, 도메인 특정 인코더(57)로 제1 인코더(50)를 이용하여 사용자의 제3 이미지(64)에 대한 제1 인코더(50)의 잠재 벡터를 제2 인코더(56)에 입력함으로써 다양한 테마를 학습한 생성 모델(50)에 따른 테마 가상 이미지를 생성할 수 있다.
이때, 사용자는 프롬프트(62)를 통해 직접 테마의 세부적인 속성을 입력하는 것도 가능하다.
이하, 본 발명의 일 실시예에 따른 서버(300)의 구체적인 하드웨어 구현에 대하여 설명한다.
도 10을 참조하면, 본 발명의 몇몇 실시예들에서 서버(300)는 컴퓨팅 장치의 형태로 구현될 수 있다. 서버(300)를 구성하는 각각의 모듈 중 하나 이상은 범용 컴퓨팅 프로세서 상에서 구현되며 따라서 프로세서(processor)(388), 입출력 I/O(382), 메모리 (memory)(384), 인터페이스(interface)(386) 및 버스(bus)(385)를 포함할 수 있다. 프로세서(388), 입출력 장치(382), 메모리 (384) 및/또는 인터페이스(386)는 버스(385)를 통하여 서로 결합될 수 있다. 버스(385)는 데이터들이 이동되는 통로(path)에 해당한다.
구체적으로, 프로세서(388)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit), 마이크로프로세서, 디지털 신호 프로세스, 마이크로컨트롤러, 어플리케이션 프로세서(AP, application processor) 및 이들과 유사한 기능을 수행할 수 있는 논리 소자들 중에서 적어도 하나를 포함할 수 있다.
입출력 장치(382)는 키패드(keypad), 키보드, 터치스크린 및 디스플레이 장치 중 적어도 하나를 포함할 수 있다. 메모리 (384)는 데이터 및/또는 프로그램 등을 저장할 수 있다.
인터페이스(386)는 통신 네트워크로 데이터를 전송하거나 통신 네트워크로부터 데이터를 수신하는 기능을 수행할 수 있다. 인터페이스(386)는 유선 또는 무선 형태일 수 있다. 예컨대, 인터페이스(386)는 안테나 또는 유무선 트랜시버 등을 포함할 수 있다. 메모리(384)는 프로세서(388)의 동작을 향상시키되, 개인정보의 보호를 위한 휘발성의 동작 메모리로서, 고속의 디램 및/또는 에스램 등을 더 포함할 수도 있다.
또한, 메모리(384) 내에는 여기에 설명된 일부 또는 모든 모듈의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 예를 들어, 상술한 학습 방법의 선택된 양태들을 수행하도록 하는 로직을 포함할 수 있다.
메모리 (384)에 저장된 상술한 학습 방법을 수행하는 각 동작을 포함하는 명령어들의 집합으로 프로그램 또는 어플리케이션을 로드하고 프로세서가 각 동작을 수행할 수 있도록 한다.
이상 여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어 모듈 자체로 구현될 수 있다.
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리 모듈에 저장되고, 제어모듈에 의해 실행될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (13)

  1. 컴퓨터 장치에서 수행되는 가상 이미지 생성 방법에 있어서,
    제1 이미지를 입력 받는 단계;
    상기 제1 이미지를 제1 인코더에 입력하여 제1 잠재 벡터를 출력하는 단계;
    상기 제1 잠재 벡터에 대한 단계별 노이즈를 추가하는 단계;
    상기 단계별 노이즈가 추가된 제1 잠재 벡터에 대한 사용자 프롬프트를 입력으로 디노이징된 제2 잠재 벡터를 생성하는 단계; 및
    상기 제2 잠재 벡터를 상기 제1 인코더에 대응되는 제1 디코더에 입력하여 가상의 제2 이미지를 출력하는 단계를 포함하고,
    상기 제2 잠재 벡터를 생성하는 단계는,
    상기 단계별 노이즈가 추가된 제1 잠재 벡터를 제2 인코더 및 제2 디코더에 통과시킴으로써 단계별로 노이즈를 제거하여 제2 잠재 벡터를 생성하는 것을 특징으로 하는 가상 이미지 생성 방법.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 잠재 벡터에 대한 사용자 프롬프트를 입력으로 디노이징된 제2 잠재 벡터를 생성하는 단계는,
    상기 제2 이미지의 생성을 위한 텍스트 기반의 조건을 프롬프트로 입력 받는 단계를 더 포함하는 것을 특징으로 하는 가상 이미지 생성 방법.
  5. 제 4 항에 있어서,
    상기 잠재 벡터에 대한 사용자 프롬프트를 입력으로 디노이징된 제2 잠재 벡터를 생성하는 단계는,
    상기 제2 이미지의 생성을 위한 소스로 제3 이미지를 입력 받는 단계를 더 포함하는 것을 특징으로 하는 가상 이미지 생성 방법.
  6. 제 5 항에 있어서,
    상기 제3 이미지를 입력 받는 단계는 제3 이미지에 대한 제1 인코더의 출력으로 제3 잠재백터를 입력 받는 것을 특징으로 하는 가상 이미지 생성 방법.
  7. 제 6 항에 있어서
    상기 제2 디코더는 프롬프트 또는 제3 이미지를 이용한 단계별 크로스어텐션 기반의 디코딩 연산을 수행하고,
    제2 이미지를 출력하는 단계는 상기 크로스어텐션 기반의 디코딩 연산으로 생성된 가상 이미지를 제2 이미지로 출력하는 것을 특징으로 하는 가상 이미지 생성 방법.
  8. 프로세서, 및
    상기 프로세서와 통신하는 메모리를 포함하고,
    상기 메모리는 상기 프로세서로 하여금 동작들을 수행하게 하는 명령들을 저장하고,
    상기 동작들은,
    제1 이미지를 입력 받는 동작,
    상기 제1 이미지를 제1 인코더에 입력하여 제1 잠재 벡터를 출력하는 동작,
    상기 제1 잠재 벡터에 대한 단계별 노이즈를 추가하는 동작,
    상기 단계별 노이즈가 추가된 제1 잠재 벡터에 대한 사용자 프롬프트를 입력으로 디노이징된 제2 잠재 벡터를 생성하는 동작, 및
    상기 제2 잠재 벡터를 상기 제1 인코더에 대응되는 제1 디코더에 입력하여 가상의 제2 이미지를 출력하는 동작을 포함하고,
    상기 제2 잠재 벡터를 생성하는 동작은,
    상기 단계별 노이즈가 추가된 제1 잠재 벡터를 제2 인코더 및 제2 디코더에 통과시킴으로써 단계별로 노이즈를 제거하여 제2 잠재 벡터를 생성하는 것을 특징으로 하는 컴퓨팅 장치.
  9. 삭제
  10. 삭제
  11. 제 8 항에 있어서
    상기 잠재 벡터에 대한 사용자 프롬프트를 입력으로 디노이징된 제2 잠재 벡터를 생성하는 동작은,
    상기 제2 이미지의 생성을 위한 텍스트 기반의 조건을 프롬프트로 입력 받는 동작을 더 포함하는 것을 특징으로 하는 컴퓨팅 장치.
  12. 제 11 항에 있어서
    상기 잠재 벡터에 대한 사용자 프롬프트를 입력으로 디노이징된 제2 잠재 벡터를 생성하는 동작은,
    상기 제2 이미지의 생성을 위한 소스로 제3 이미지를 입력 받는 동작을 더 포함하는 것을 특징으로 하는 컴퓨팅 장치.
  13. 제 12 항에 있어서,
    상기 제3 이미지를 입력 받는 동작은 제3 이미지에 대한 제1 인코더의 출력으로 제3 잠재백터를 입력 받는 것을 특징으로 하는 컴퓨팅 장치.
KR1020230145898A 2023-10-27 2023-10-27 잠재 공간 내 노이즈 학습을 통한 가상 이미지 생성 방법 및 이를 수행하는 장치 KR102663123B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230145898A KR102663123B1 (ko) 2023-10-27 2023-10-27 잠재 공간 내 노이즈 학습을 통한 가상 이미지 생성 방법 및 이를 수행하는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230145898A KR102663123B1 (ko) 2023-10-27 2023-10-27 잠재 공간 내 노이즈 학습을 통한 가상 이미지 생성 방법 및 이를 수행하는 장치

Publications (1)

Publication Number Publication Date
KR102663123B1 true KR102663123B1 (ko) 2024-05-03

Family

ID=91076957

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230145898A KR102663123B1 (ko) 2023-10-27 2023-10-27 잠재 공간 내 노이즈 학습을 통한 가상 이미지 생성 방법 및 이를 수행하는 장치

Country Status (1)

Country Link
KR (1) KR102663123B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210141060A (ko) * 2020-05-15 2021-11-23 에스케이하이닉스 주식회사 머신러닝 기반의 이미지 이상 탐지 시스템
KR20230093848A (ko) * 2021-12-20 2023-06-27 사회복지법인 삼성생명공익재단 학습모델 기반의 저 선량 ct 복원 방법 및 영상처리장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210141060A (ko) * 2020-05-15 2021-11-23 에스케이하이닉스 주식회사 머신러닝 기반의 이미지 이상 탐지 시스템
KR20230093848A (ko) * 2021-12-20 2023-06-27 사회복지법인 삼성생명공익재단 학습모델 기반의 저 선량 ct 복원 방법 및 영상처리장치

Similar Documents

Publication Publication Date Title
Zhan et al. Multimodal image synthesis and editing: A survey and taxonomy
US10592238B2 (en) Application system that enables a plurality of runtime versions of an application
US10665030B1 (en) Visualizing natural language through 3D scenes in augmented reality
Ferreira et al. Learning to dance: A graph convolutional adversarial network to generate realistic dance motions from audio
Saunders et al. Continuous 3d multi-channel sign language production via progressive transformers and mixture density networks
Tian Dynamic visual communication image framing of graphic design in a virtual reality environment
CN112819933A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116611496A (zh) 文本到图像的生成模型优化方法、装置、设备及存储介质
KR102399255B1 (ko) 인공지능을 이용한 웹툰 제작 시스템 및 방법
Lee et al. Diffusion explainer: Visual explanation for text-to-image stable diffusion
Foo et al. Ai-generated content (aigc) for various data modalities: A survey
Cao et al. Controllable generation with text-to-image diffusion models: A survey
Liu et al. Application potential of stable diffusion in different stages of industrial design
Tan et al. Semantic probability distribution modeling for diverse semantic image synthesis
Cui et al. Virtual human: A comprehensive survey on academic and applications
Ardhianto et al. Generative deep learning for visual animation in landscapes design
CN117291157A (zh) 一种文本驱动的三维场景生成与编辑方法
KR102663123B1 (ko) 잠재 공간 내 노이즈 학습을 통한 가상 이미지 생성 방법 및 이를 수행하는 장치
Foo et al. Aigc for various data modalities: A survey
Zhan et al. Multimodal image synthesis and editing: A survey
Song et al. Virtual Human Talking-Head Generation
WO2024066549A1 (zh) 一种数据处理方法及相关设备
Zhu Flattening of New Media Design Based on Deep Reinforcement Learning
CN115375809B (zh) 虚拟形象的生成方法、装置、设备及存储介质
Fasouli et al. Language Meets Vision: A Critical Survey on Cutting-Edge Prompt-Based Image Generation Models

Legal Events

Date Code Title Description
A107 Divisional application of patent
GRNT Written decision to grant