KR20210152371A - 이미지 생성 방법, 장치, 기기 및 매체 - Google Patents

이미지 생성 방법, 장치, 기기 및 매체 Download PDF

Info

Publication number
KR20210152371A
KR20210152371A KR1020210032190A KR20210032190A KR20210152371A KR 20210152371 A KR20210152371 A KR 20210152371A KR 1020210032190 A KR1020210032190 A KR 1020210032190A KR 20210032190 A KR20210032190 A KR 20210032190A KR 20210152371 A KR20210152371 A KR 20210152371A
Authority
KR
South Korea
Prior art keywords
image
classification
random
vector
image classification
Prior art date
Application number
KR1020210032190A
Other languages
English (en)
Inventor
지아밍 리우
티안슈 후
솅이 헤
즈히빈 홍
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210152371A publication Critical patent/KR20210152371A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • G06K9/6269
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • G06K9/00288
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 출원은 이미지 생성 방법, 장치, 기기 및 매체를 개시하며, 이는 인공 지능 딥 러닝 및 이미지 처리 분야에 관한 것이다. 구체적인 구현 방안은, 제1 랜덤 벡터 집합을 획득하고, 트레이닝된 분류기를 기반으로 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정하고, 상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성한다. 본 출원의 기술적 방안을 통해, 명확한 분류를 구비하는 대량의 이미지를 자동으로 생성하여, 이미지 다양성을 향상시키고, 이미지 분류 비용을 저감시킬 수 있다.

Description

이미지 생성 방법, 장치, 기기 및 매체{METHOD AND DEVICE FOR IMAGE GENERATION, APPARATUS, AND MEDIUM}
본 출원의 실시예는 이미지 처리 기술에 관한 것으로, 특히 인공 지능 딥 러닝 및 이미지 처리 분야에 관한 것이며, 구체적으로 이미지 생성 방법, 장치, 기기 및 매체에 관한 것이다.
기계 러닝 기술이 신속하게 발전됨에 따라, 기계 러닝 기술은 그의 자체의 우세로 인해 각종의 업계에 더욱더 광범위하게 적용되고 있다.
기계 러닝 기술을 이미지 처리 분야에 적용시킬 경우, 신경망 모델이 이미지 처리 능력을 구비하도록, 통상적으로 샘플 데이터로서 대량의 분류된 이미지를 획득하여 신경망 모델에 대해 트레이닝을 진행할 필요가 있다.
따라서, 기계 러닝 기술을 이미지 처리 분야에 적용시킬 때 시급히 해결해야 하는 기술적 문제로서, 어떻게 분류된 이미지를 획득하는 가에 대한 문제가 대두되고 있다.
본 개시는 이미지 생성 방법, 장치, 기기 및 매체를 제공한다.
본 개시의 일 양태에 의하면, 이미지 생성 방법을 제공하며, 해당 이미지 생성 방법은, 제1 랜덤 벡터 집합을 획득하는 단계와, 트레이닝된 분류기를 기반으로 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정하는 단계와, 상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하는 단계를 포함한다.
본 개시의 다른 일 양태에 의하면, 이미지 생성 장치를 제공하며, 해당 이미지 생성 장치는, 제1 랜덤 벡터 집합을 획득하도록 구성되는 제1 집합 획득 모듈과, 트레이닝된 분류기를 기반으로 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정하도록 구성되는 이미지 분류 확정 모듈과, 상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하도록 구성되는 가상 이미지 생성 모듈을 포함한다.
본 개시의 다른 일 양태에 의하면, 전자 기기를 제공하며, 해당 전자 기기는, 적어도 하나의 프로세서와, 상기 적어도 하나의 프로세서와 통신 연결되는 메모리 장치를 포함하되, 상기 메모리 장치에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 본 출원의 실시예 중의 임의의 한 항의 방법을 실행할 수 있도록 한다.
본 개시의 다른 일 양태에 의하면, 컴퓨터 명령어가 저장되는 비 일시적 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 명령어는 상기 컴퓨터로 본 출원의 실시예 중의 임의의 한 항의 방법을 실행하도록 구성되는 것을 특징으로 한다.
본 출원에 따른 기술은 분류된 이미지를 획득하기 어려운 문제점을 해결한다.
본 부분에 설명된 내용은 본 개시의 실시예의 관건적인 또는 중요한 특징을 표식하기 위한 것이 아니며, 본 개시의 범위를 한정하기 위한 것도 아니다. 본 개시의 기타의 특징은 아래의 명세서를 통해 용이하게 이해할 수 있을 것이다.
첨부된 도면은 당해 방안을 보다 잘 이해시키기 위한 것이며, 본 출원에 대한 한정을 구성하지 않는다.
도 1a는 본 개시의 실시예에 따른 일 이미지 생성 방법의 흐름도이다.
도 1b는 본 개시의 실시예에 따른 일 stylegan 트레이닝 구조도이다.
도 2는 본 개시의 실시예에 따른 다른 일 이미지 생성 방법의 흐름도이다.
도 3a는 본 개시의 실시예에 따른 다른 일 이미지 생성 방법의 흐름도이다.
도 3b는 본 개시의 실시예에 따른 일 트레이닝된 이미지 대 이미지 번역 모델을 획득하는 흐름도이다.
도 4는 본 개시의 실시예에 따른 일 이미지 생성 장치의 개략적 구조도이다.
도 5는 본 출원의 실시예의 이미지 생성 방법을 구현하기 위한 전자 기기의 블록도이다.
아래에 첨부된 도면을 결부하여 본 출원의 시범적인 실시예에 대해 설명을 진행하되, 이해를 돕기 위해 본 출원의 실시예의 각종의 세부 사항을 포함하며, 이는 단지 시범적인 것으로 시인되어야 한다. 따라서, 본 출원의 범위 및 사상을 위배하지 않고서, 여기서 설명되는 실시예에 대해 각종의 변화 및 수정을 진행할 수 있음을 당해 기술분야에서 통상의 지식을 가진 자는 자명할 것이다. 마찬가지로, 명확하고 간결함을 위하여, 공지의 기능 및 구조에 대한 설명은 아래의 설명으로부터 생략된다.
본 출원의 실시예에 의하면, 본 출원은 이미지 생성 방법을 제공한다.
도 1a에 도시된 바와 같이, 이는 본 개시의 실시예에 따른 일 이미지 생성 방법의 흐름도이다. 본 실시예는 명확한 분류를 구비하는 이미지를 획득하는 정경에 적합할 수 있다. 해당 방법은 이미지 생성 장치에 의해 실행될 수 있으며, 해당 장치는 소프트웨어 및/또는 하드웨어에 의해 구현될 수 있으며, 일반적으로 컴퓨터, 휴대폰 등의 컴퓨팅 능력을 구비하는 전자 기기에 집적될 수 있다.
구체적으로, 도 1a를 참조하면, 해당 방법은 구체적으로 아래와 같은 단계들을 포함한다.
단계(S110)에서, 제1 랜덤 벡터 집합을 획득한다.
기계 러닝 기술을 이미지 처리 분야에 적용하는 과정에, 구체적으로 신경망 모델에 대해 지도형 트레이닝을 진행할 경우, 통상적으로 대량의 분류된 고품질 이미지를 획득할 필요가 있다. 일 실시예는 기존의 공개 데이터 집합을 직접적으로 사용하는 것이고, 이러한 방식으로, 공개 데이터 집합 내의 이미지 데이터가 한정적이고, 다양한 실제 생산 환경에 적용될 수 없으므로, 실제 효과가 좋지 않게 되며, 다른 일 실시예는 먼저 고품질의 이미지 데이터를 수집하고, 이어서 인위적 분류 표식을 진행하는 것이며, 이러한 방식으로, 대량의 고품질 데이터를 획득하기 어려울 뿐만 아니라, 인위적 표식 비용도 아주 높게 된다.
상술한 문제점에 대해, 본 실시예는 분류기와 이미지 생성기를 배합하여 사용함으로써, 명확한 분류를 구비하는 대량의 고품질 이미지를 생성할 수 있다.
구체적으로, 먼저 제1 랜덤 벡터 집합을 획득할 수 있다. 여기서, 제1 랜덤 벡터 집합에는 적어도 하나의 랜덤 벡터가 포함될 수 있으며, 각 랜덤 벡터는 상응한 가상 이미지를 최종으로 생성하도록 이용될 수 있다. 예시적으로, 제1 랜덤 벡터 집합을 획득하는 방식은, 랜덤으로 생성된 다차원 기정 분포에 대해 샘플링을 진행하여, 적어도 하나의 다차원 랜덤 벡터를 획득하고, 해당 적어도 하나의 다차원 랜덤 벡터로 제1 랜덤 벡터 집합을 구성하는 것을 포함하나, 이에 한정되지 않는다. 여기서, 기정의 분포는 예를 들어 균등 분포 또는 정규 분포 등일 수 있으며, 이에 대한 한정을 진행하지 않는다. 일 실제의 예시에 있어서, 랜덤으로 생성된 512차원의 균등 분포에서 랜덤 벡터로서 512차원의 숨은 변수 Z를 샘플링하여, 제1 랜덤 벡터 집합을 구성할 수 있다.
단계(S120)에서, 트레이닝된 분류기를 기반으로, 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정한다.
본 실시예에 있어서, 분류기는 기정의 초기 분류 모델에 대해 트레이닝을 진행하여 획득된 이미지 분류 기능을 구비하는 모델일 수 있다. 구체적으로, 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 분류기에 입력하여, 분류기로 트레이닝을 진행할 때의 기정의 이미지 분류에 따라 랜덤 벡터에 대해 분류를 진행하여, 입력된 랜덤 벡터가 해당되는 이미지 분류를 확정할 수 있다. 여기서, 분류기는 이중 분류기일 수 있으며, 다중 분류기일 수도 있으며, 이에 대한 한정을 진행하지 않는다.
선택적으로, 제2 랜덤 벡터 집합을 획득하는 단계와, 제2 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 적어도 하나의 표식하고자 하는 가상 이미지를 생성하는 단계와, 상기 표식하고자 하는 가상 이미지 및 기정의 이미지 분류에 따라 상기 랜덤 벡터에 대해 분류 및 표식을 진행하여, 분류 라벨을 구비하는 랜덤 벡터 샘플을 획득하는 단계와, 분류 라벨을 구비하는 랜덤 벡터 샘플을 이용하여 기정의 분류 모델에 대해 트레이닝을 진행하여, 트레이닝된 분류기를 획득하는 단계를 더 포함한다.
여기서, 제2 랜덤 벡터 집합의 획득 방식은, 랜덤으로 생성된 다차원 기정 분포에 대해 샘플링을 진행하여, 적어도 하나의 다차원 랜덤 벡터를 획득하고, 해당 적어도 하나의 다차원 랜덤 벡터 또는 다차원 랜덤 벡터를 다수의 완전 연결층(FC 층)에 입력한 후 획득된 랜덤 벡터로 제2 랜덤 벡터 집합을 구성하는 것을 포함하나, 이에 한정되지 않는다. 하나의 실제 예시를 들면, 랜덤으로 생성된 512차원의 균등 분포에서 랜덤 벡터로서 512차원의 숨은 변수 Z를 샘플링하거나, 해당 숨은 변수 Z를 일련의 FC 층을 경유시키고, 랜덤 벡터로서 숨은 변수 Z를 8*512차원의 W로 변화시켜, 제2 랜덤 벡터 집합을 구성할 수 있다.
구체적으로, 분류기를 트레이닝하는 과정에, 제2 랜덤 벡터 집합에 포함되는 랜덤 벡터를 먼저 트레이닝된 이미지 생성기에 입력하여 입력된 랜덤 벡터에 대응되는 가상 이미지를 생성하여 획득하되, 해당 가상 이미지는 이미지 분류가 명확하지 않은 이미지이며, 즉, 표식하고자 하는 가상 이미지이다. 이어서, 기정의 이미지 분류에 따라 표식하고자 하는 가상 이미지에 대해 분류를 진행하고, 해당 표식하고자 하는 가상 이미지에 대응되는 랜덤 벡터에 대해 그가 해당되는 이미지 분류에 다라 표식을 진행하여 분류 라벨을 구비하는 랜덤 벡터 샘플을 획득한다. 여기서, 이중 분류일 경우, 기정의 이미지 분류는 사전에 정의된 domainA과 domainB일 수 있으며, 예를 들어, 이미지가 얼굴 이미지일 경우, domainA는 어른일 수 있고, domainB는 어린이일 수 있으며, 또는, domainA는 젊은이일 수 있고, domainB는 노인일 수 있는 등이며, 여기서 이에 대한 한정을 진행하지 않는다. 분류 및 표식을 진행하는 방식은 인위적 분류 및 인위적 표식 등을 포함하나, 이에 한정되지 않으며, 표식하고자 하는 가상 이미지가 domainA에 해당되는 것으로 인위적으로 구획될 경우, 해당 표식하고자 하는 가상 이미지를 생성하기 위한 랜덤 벡터는 domainA로 표식된다. 이어서, 분류 라벨을 구비하는 랜덤 벡터 샘플을 이용하여 기정의 분류 모델에 대해 트레이닝을 진행하고, 모델이 수렴된 후 해당 분류 모델을 트레이닝된 분류기로 확정할 수 있다. 여기서, 기정의 이미지 분류가 두 가지일 경우, 기정의 분류 모델은 이중 분류 모델, 예컨대, 선형 분류기 linear SVM(Support Vector Machine, 서포트 벡터 머신)일 수 있으며, 기정의 이미지 분류가 여러가지일 경우, 기타 다중 분류 모델일 수도 있으며, 여기서 이에 대한 한정을 진행하지 않는다.
아래에 이중 분류를 예로 들며, 하나의 실제의 예시로 분류기의 트레이닝 과정에 대해 설명을 진행하기로 하며, 랜덤으로 생성된 균등 분포로부터 약 5000개의 숨은 변수 Z를 샘플링하되, 각 Z는 모두 트레이닝된 이미지 생성기를 이용하여 하나의 얼굴 이미지 샘플을 생성하고, 사전에 정의된 domainA 및 domainB에 따라 표식 인원으로 하여금 5000 장의 얼굴 이미지 샘플에서 domainA에 해당되는 이미지와 domainB에 해당되는 이미지를 구분하게 한다. 두 개의 도메인의 이미지 데이터를 획득한 후, 이러한 두 개의 도메인의 이미지 데이터에 대응되는 랜덤 변수 샘플을 이용하여 linear SVM에 대해 지도형 트레이닝을 진행하여, linear SVM로 domainA 또는 domainB에 따라 숨은 변수 Z에 대해 분류를 진행할 수 있게 하여, 트레이닝된 분류기를 획득한다.
랜덤 벡터를 이용하여 분류기에 대해 트레이닝을 진행하는 것은, 트레이닝 과정이 상대적으로 간단하여, 모델 트레이닝 복잡성을 저감시키고, 모델이 더욱 용이하게 수렴되고, 필요한 트레이닝 샘플이 더욱 적을 수 잇는 장점을 구비한다.
선택적으로, 제1 랜덤 벡터 집합 중의 랜덤 벡터의 수량은 제2 랜덤 벡터 집합 중의 랜덤 벡터의 수량보다 크다.
본 실시예에 있어서, 제2 랜덤 벡터 집합 중의 랜덤 벡터의 수량을 제1 랜덤 벡터 집합 중의 랜덤 벡터의 수량보다 훨씬 작게 설정하고, 이러한 설정은, 분류기에 대해 트레이닝을 진행할 경우 단지 소량의 랜덤 벡터 샘플에 대해 표식을 진행하면 되고, 즉, 트레이닝된 분류기 및 이미지 생성기를 이용하여 대량의 명확한 분류를 구비하는 가상 이미지를 무제한으로 생성할 수 있으며, 이로써 이미지 분류 과정을 간략히 하고, 이미지 분류 비용을 저감시키고, 이미지 다양성을 향상시킬 수 있는 장점을 구비한다.
단계(S130)에서, 해당 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 해당 이미지 분류에 해당되는 가상 이미지를 생성한다.
본 실시예에 있어서, 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정한 후, 대상 이미지 분류에 해당되는 랜덤 벡터를 각각 트레이닝된 이미지 생성기에 입력하여, 대응되게 대상 이미지 분류에 해당되는 가상 이미지를 생성할 수 있다. 예시적으로, 제1 랜덤 벡터 집합에 다수의 랜덤 벡터가 포함되면, 각 이미지 분류에 해당되는 랜덤 벡터를 각각 트레이닝된 이미지 생성기에 입력하여, 각 이미지 분류에 해당되는 가상 이미지를 출력하고 획득할 수 있다.
여기서, 이미지 생성기는 기정의 초기 생성 모델에 대해 트레이닝을 진행하여 획득한 이미지 생성 기능을 구비하는 모델일 수 있다. 구체적으로, 하나의 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 해당 랜덤 벡터에 대응되는 가상 이미지를 출력하고 획득할 수 있다. 여기서, 가상 이미지는 이미지 생성기로 실제 이미지를 러닝하여 생성된 현실에는 존재하지 않는 이미지이다.
선택적으로, 분류 라벨이 없는 복수의 실제 이미지를 포함하는 샘플 이미지 데이터 집합을 획득하는 단계와, 샘플 이미지 데이터 집합을 이용하여 제1 생성 대결 네트워크에 대해 무지도형 트레이닝을 진행하여, 트레이닝된 이미지 생성기를 획득하는 단계를 더 포함한다.
이미지 생성기의 트레이닝 과정에서, 다수의 실제 이미지로 구성된 샘플 이미지 데이터 집합을 트레이닝 샘플로 이용하고, 제1 생성 대결 네트워크에 대해 무지도형 트레이닝을 진행할 수 있으며, 여기서, 샘플 이미지 데이터 집합에 포함되는 실제 이미지는 고해상도 이미지일 수 있으며, 샘플 이미지 데이터 집합은 예를 들어 기존의 공개 데이터 집합일 수 있다. 또한, 제1 생성 대결 네트워크는 예를 들어 스타일 기반의 생성 대결 네트워크 (stylegan)일 수 있으며, 고해상도 샘플 이미지 데이터 집합을 이용하여 stylegan에 대해 트레이닝을 진행하여 획득된 이미지 생성기를 사용할 때 생성되는 가상 이미지도 고해상도 이미지이다.
일 구체적인 예시에 있어서, 도 1b에 도시된 stylegan 트레이닝 구조를 참조하면, 이미지 생성기의 트레이닝 과정은, 512차원의 균등 분포에서 512차원의 숨은 변수 Z를 샘플링하고, 좌측의 일련의 FC 층을 경유시켜, Z를 8*512차원의 W로 변화시키고, W를 4층 AdaIN의 beta, gamma 파라미터로 구분하며, 이미지 풍격 또는 스타일(style)로서 중간의 통합 네트위크 g(synthesis network g)에 전송하고, 우측은 랜덤 샘플링의 노이즈(Noise)이고, 그의 차원과 컨볼루션 후의 기능 맵은 일치하다. G의 컨볼루션을 빈 도에 입력하고, W와 Noise 통제된 g 네트워크를 경유한 후, 하나의 랜덤 RGB 도를 생성한다. 트레이닝을 진행할 경우, PGGAN 트레이닝 전략을 이용할 수 있으며, 여기서, PGGAN 트레이닝 전략은 구체적으로, 먼저 stylegan 중의 생성기에 대해 트레이닝을 진행하여 4*4 크기의 출력 이미지를 생성하고, stylegan 중의 판별기로 4*4 크기의 이미지를 상대로 판별을 진행하고, 수렴된 후, 4*4 크기 상에서 하나의 컨볼루션 블록을 중첩시키며, 본 실시예에서, 하나의 컨볼루션 블록은 두 개의 AdaIN 층으로 구성되고, 해당 컨볼루션 블록의 출력은 8*8 이미지이며, 동일한 크기의 판별기는 해당 크기에서 판별을 진행한다. 해당 단계는 생성되는 이미지의 크기가 1024*1024에 달할 때까지 순환 중첩되고, 수렴된 후의 stylegan을 트레이닝된 이미지 생성기로 취한다.
이미지 생성기의 트레이닝 과정에서, 샘플 이미지 데이터 집합을 이용하여 제1 생성 대결 네트워크에 대해 무지도형 트레이닝을 진행하는 것은, 샘플 이미지의 분류 표식 과정을 생략하여, 이미지 품질을 확보할 뿐만 아니라, 샘플 이미지의 표식 비용을 저감시킬 수 있는 유익한 효과를 구비한다.
본 개시의 기술적 방안에 의하면, 제1 랜덤 벡터 집합을 획득하고, 트레이닝된 분류기를 기반으로, 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정하고, 해당 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 해당 이미지 분류에 해당되는 가상 이미지를 생성함으로써, 분류기와 이미지 생성기를 결합하여 사용하는 장점을 이용하여 기존의 기술에서 명확한 분류를 구비하는 이미지를 획득하기 어려운 문제점을 해결하여, 명확한 분류를 구비하는 대량의 이미지의 자동 생성을 실현할 뿐만 아니라, 이미지 다양성을 향상시키고, 이미지 분류 비용을 저감시킨다.
본 출원의 실시예에 의하면, 본 출원은 이미지 생성 방법을 더 제공한다.
도 2에 도시된 바와 같이, 이는 본 개시의 실시예에 따른 다른 일 이미지 생성 방법의 흐름도이다. 본 실시예는 상술한 임의의 실시예에 대해 세분화를 진행하고, 상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하는 단계 이후에, 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 상기 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하는 단계를 더 포함하는 것으로 세분화된다.
구체적으로, 도 2를 참조하면, 본 방법은 구체적으로 아래와 같은 단계들을 포함한다.
단계(S210)에서, 제1 랜덤 벡터 집합을 획득한다.
단계(S220)에서, 트레이닝된 분류기를 기반으로, 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정한다.
단계(S230)에서, 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 해당 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득한다.
본 실시예는 상술한 실시예를 기초로, 생성된 각 이미지 분류에 대응되는 가상 이미지의 수량이 상당한 량으로 되게 하기 위하여, 분류기를 이용하여 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터에 대해 분류를 진행한 후, 각 이미지 분류에서의 랜덤 벡터를 모두 기타 이미지 분류로 편집하여, 대응되는 기타 이미지 분류에서의 랜덤 벡터를 획득함으로써, 각 이미지 분류에서의 랜덤 벡터의 수량을 상당한 량으로 구현하여, 각 이미지 분류에서의 랜덤 벡터에 따라 생성된 가상 이미지의 수량도 상당한 량으로 되게 할 수도 있다.
예를 들어, 랜덤 벡터 a1가 이미지 분류 A에 해당되고, 랜덤 벡터 b1와 c1가 이미지 분류 B에 해당되면, 랜덤 벡터 a1를 이미지 분류 A에서 이미지 분류B로 편집하여, 대응되게 이미지 분류 B에 해당되는 랜덤 벡터 a2를 획득할 수 있으며, 랜덤 벡터 b1를 이미지 분류 B에서 이미지 분류 A로 편집하여, 대응되게 이미지 분류 A에 해당되는 랜덤 벡터 b2를 획득할 수 있으며, 아울러, 랜덤 벡터 c1을 이미지 분류 B에서 이미지 분류 A로 편집하여, 대응되게 이미지 분류 A에 해당되는 랜덤 벡터c2를 획득할 수 있으며, 즉, 편집을 진행한 후, 이미지 분류 A는 대응되게 a1, b2 및 c2를 포함하고, 이미지 분류 B는 대응되게 a2, b1 및 c1를 포함하여, 이미지 분류 A와 이미지 분류 B에 모두 3개의 랜덤 벡터를 포함시켜, 수량 상에서의 균형을 실현한다.
선택적으로, 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 해당 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하는 단계는, 이미지 생성기에 대응되는 이미지 분류 공간의 속성 벡터 축을 획득하되, 속성 벡터 축은 이미지 분류 공간 중 임의의 두 개의 이미지 분류에 대응되는 분류면의 법선 벡터인 단계와, 속성 벡터 축에 따라 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 해당 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하는 단계를 포함한다.
예시적으로, 속성 벡터 축은 이미지 생성기에 대응되는 이미지 분류 공간에서 랜덤 벡터가 해당되는 이미지 분류의 벡터 축을 변화시키기 위한 것일 수 있다. 여기서, 이미지 분류 공간은 각 이미지 분류 사이의 분류면을 분할하여 형성한 다수의 공간일 수 있다. 이중 분류를 예로 들면, 분류기의 두 개의 파라미터는 하나의 분류 평면을 결정할 수 있으며, 해당 분류 평면의 법선 벡터는 즉 이미지 생성기 공간에서의 속성 벡터 축이다. 다수의 이미지 분류가 존재할 경우, 상응하게, 다수의 속성 벡터 축이 존재할 수도 있으며, 즉, 각 두 개의 이미지 분류는 하나의 속성 벡터 축에 대응될 수 있다.
구체적으로, 해당 적어도 하나의 속성 벡터 축을 통해, 제1 랜덤 벡터 집합 중의 랜덤 벡터를 해당되는 이미지 분류에서 이미지 분류 이외의 속성 벡터 축에 대응되는 기타 이미지 분류로 편집하여 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득할 수 있다.
속성 벡터 축을 이용하여 랜덤 벡터를 해당되는 이미지 분류에서 해당 이미지 분류 이외의 기타 이미지 분류로 편집하는 것은, 각 이미지 분류에 대응되는 랜덤 벡터의 수량이 상당한 량으로 되게 함으로써, 생성된 각 이미지 분류에 대응되는 가상 이미지의 수량이 상당한 량으로 되게 하여, 이를 지도형 트레이닝의 트레이닝 샘플로 이용할 경우, 각 분류 이미지 샘플 데이터의 균형성을 향상시켜, 더욱 좋은 트레이닝 효과를 실현할 수 있는 장점을 구비한다.
선택적으로, 속성 벡터 축에 따라 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하는 단계는, 제1 이미지 분류에 해당되는 랜덤 벡터에 속성 벡터 축과 편집 스케일 파라미터의 승적을 가하여, 제2 이미지 분류에 해당되는 랜덤 벡터를 획득하는 단계, 및/또는, 제2 이미지 분류에 해당되는 랜덤 벡터에서 속성 벡터 축과 편집 스케일 파라미터의 승적을 감하여, 제1 이미지 분류에 해당되는 랜덤 벡터를 획득하는 단계를 포함하되, 속성 벡터 축은 제1 이미지 분류에 대응되는 이미지 분류 공간에서 제2 이미지 분류에 대응되는 이미지 분류 공간으로 지향된다.
일 실제의 예시에 있어서, 속성 벡터 축은 제1 이미지 분류와 제2 이미지 분류 사이의 분류면의 법선 벡터이고, 해당 법선 벡터가 제1 이미지 분류에 대응되는 이미지 분류 공간에서 제2 이미지 분류에 대응되는 이미지 분류 공간으로 지향될 경우, 제1 이미지 분류에 해당되는 랜덤 벡터에 속성 벡터 축*λ를 가하면, 해당 랜덤 벡터를 제2 이미지 분류로 편집할 수 있으며, 제2 이미지 분류에 해당되는 랜덤 벡터에서 속성 벡터 축*λ를 감하면, 해당 랜덤 벡터를 제1 이미지 분류로 편집할 수 있으며, 여기서, λ는 편집 스케일 파라미터로서, 랜덤 벡터의 편집 정도를 결정하기 위한 것이며, λ가 클 수록, 편집 정도가 더욱 깊으며, 구체적으로 수요에 따라 설정할 수 있다.
본 실시예에 있어서, 속성 벡터 축을 통해 제1 이미지 분류에 해당되는 랜덤 벡터를 제2 이미지 분류로 편집하고, 반대로도 마찬가지이며, 이러한 설치는, 각 이미지 분류에 대응되는 랜덤 벡터의 수량이 상당한 량으로 되게 함으로써, 생성된 각 이미지 분류에 대응되는 가상 이미지의 수량이 상당한 량으로 되게 하여, 이를 지도형 트레이닝의 트레이닝 샘플로 이용할 경우, 각 분류 이미지 샘플 데이터의 균형성을 향상시켜, 더욱 좋은 트레이닝 효과를 실현할 수 있는 장점을 구비한다.
단계(S240)에서, 해당 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 해당 이미지 분류에 해당되는 가상 이미지를 생성한다.
본 개시의 기술적 방안에 의하면, 상술한 실시예를 기초로, 분류기를 이용하여 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터에 대해 분류를 진행한 후, 각 이미지 분류에서의 랜덤 벡터를 모두 기타 이미지 분류로 편집하여, 대응되는 기타 이미지 분류에서의 랜덤 벡터를 획득하여, 각 이미지 분류에서의 랜덤 벡터의 수량이 상당한 량으로 되게 함으로써, 각 이미지 분류에서의 랜덤 벡터에 따라 생성된 가상 이미지의 수량도 상당한 량으로 되게 하여, 각 분류의 이미지 샘플 데이터의 균형성을 향상시킬 수 있다.
본 출원의 실시예에 의하면, 본 출원은 이미지 생성 방법을 더 제공한다.
도 3a에 도시된 바와 같이, 이는 본 개시의 실시예에 따른 다른 일 이미지 생성 방법의 흐름도이다. 본 실시예는 상술한 임의의 실시예에 대해 세분화를 진행하고, 상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하는 단계 이후에, 해당되는 이미지 분류에 따라 상기 가상 이미지에 대해 표식을 진행하여, 분류 라벨을 구비하는 가상 이미지 샘플을 생성하는 단계와, 상기 가상 이미지 샘플을 이용하여 제2 생성 대결 네트워크에 대해 지도형 트레이닝을 진행하여, 트레이닝된 이미지 대 이미지 번역 모델을 획득하되, 상기 이미지 대 이미지 번역 모델은 입력된 이미지를 해당되는 이미지 분류에서 기타 이미지 분류의 이미지로 번역하도록 구성되는 단계를 더 포함하는 것으로 세분화된다.
구체적으로, 도 3a를 참조하면, 본 방법은 구체적으로 아래와 같은 단계들을 포함한다.
단계(S310)에서, 제1 랜덤 벡터 집합을 획득한다.
단계(S320)에서, 트레이닝된 분류기를 기반으로, 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정한다.
단계(S330)에서, 해당 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 해당 이미지 분류에 해당되는 가상 이미지를 생성한다.
단계(S340)에서, 해당되는 이미지 분류에 따라 가상 이미지에 대해 표식을 진행하여, 분류 라벨을 구비하는 가상 이미지 샘플을 생성한다.
얼굴 속성 편집 기능은 쇼트 클립, 라이브 방송에서 적용이 광범위하고, 상대적으로 큰 실용적인 가치를 구비하며, 얼굴 편집 모델은 트레이닝을 진행하는 과정에, 대량의 분류된 고품질 이미지가 필요하며, 이미지의 품질 및 수량은 최종 트레이닝 모델의 이미지 편집 효과에 현저한 영향을 미치게 된다. 본 실시예에서 관련되는 이미지는 얼굴 이미지일 수 있으며, 얼굴 속성 편집 모델은 이미지 대 이미지 번역 모델일 수 있다.
예시적으로, 각 이미지 분류에 각각 해당되는 가상 이미지를 생성한 후, 그의 해당되는 이미지 분류에 따라 각 이미지 분류의 가상 이미지에 대해 표식을 진행하여, 분류 라벨을 구비하는 가상 이미지 샘플을 생성할 수도 있으며, 여기서, 구체적인 표식 방식은 예를 들어 상이한 문자 또는 숫자를 이용하여 상이한 이미지 분류의 가상 이미지에 대해 구별 표식을 진행하는 것일 수 있으며, 여기서 이에 대한 한정을 진행하지 않는다.
단계(S350)에서, 가상 이미지 샘플을 이용하여 제2 생성 대결 네트워크에 대해 지도형 트레이닝을 진행하여, 트레이닝된 이미지 대 이미지 번역 모델을 획득하되, 이미지 대 이미지 번역 모델은 입력된 이미지를 해당되는 이미지 분류에서 기타 이미지 분류의 이미지로 번역하도록 구성된다.
구체적으로, 상술한 생성된 분류 라벨을 구비하는 가상 이미지 샘플을 사용하여 제2 생성 대결 네트워크에 대해 직접적으로 트레이닝을 진행하여, 트레이닝된 이미지 대 이미지 번역 모델을 획득할 수 있다. 여기서, 제2 생성 대결 네트워크는 예를 들어 cyclegan일 수 있으며, 바람직하게 UGATIT 아키텍처일 수 있으며, UGATIT 아키텍처를 이용하는 것은, 보다 안정적인 번역 효과를 획득할 수 있는 장점을 구비한다. 구체적으로, 단 두 개의 이미지 분류를 상대로 할 경우, 두 개의 도메인(domainA 및 domainB) 사이에서 전환하는 문제점은 이미지 대 이미지 번역 모델이 두 개의 생성기(A2B, B2A) 및 두 개의 판별기(A 및 B)로 구성되는 것에 있다. 생성기는 진짜와 같은 가짜 이미지를 생성하여 판별기를 속이는 것을 책임지고, 판별기 가짜 이미지를 식별하는 것을 책임진다.
여기서, 이미지 대 이미지 번역 모델의 작업 원리는, 생성기 측에서 입력된 이미지가 두 개의 다운 샘플링 컨볼루션 및 네 개의 계층 간 연결 블록으로 구성된 인코더(encoder)를 통과한 후 C개의 채널을 구비하는 특징도 x가 획득되고, x에 대해 최대 풀링(max pooling) 및 평균 풀링(average pooling)을 진행한 후 2C 차원 특징을 획득하고, 이를 하나의 보조 분류기에 입력하여 이미지 래원이 A 또는 B인 것을 판별한다. 보조 분류기의 가중 W를 획득한 후, 이를 x 상의 각 픽셀 포인트의 2C 채널 특징과 벡터 곱셈을 진행하여 주의력 히트맵 a이 획득된다. 히트맵 a은 x와 곱셈되어, 가중된 특징도 x'가 획득되고, x'가 완전 컨볼루션 네트워크를 통과하여 beta, gamma의 두 개의 벡터가 획득된다. 디코더(decoder)는 AdaLIN 기반의 적응형 잔여 블록(Adaptive Residual Block, ARB) 및 업 샘플링 층으로 구성된다. ARB는 컨볼루션의 입력으로서 x'를 접수하며, 그 중의 AdaLIN 층은 beta, gamma를 접수하여 특징 변조를 진행한다. x'가 ARB 및 업 샘플링을 경유한 후, 번역된 이미지가 출력된다.
UGATIT 아키텍처에 대해 지도형 트레이닝을 진행할 경우, 판별기 측을 사용할 필요가 더 있으며, 구체적으로, 판별기 측에서 생성기로 번역하여 획득된 이미지를 생성기와 유사한 encoder에 경유시킨 후, 가중된 특징도 x'를 획득할 수 있으며, x'가 컨볼루션 및 sigmoid를 통과한 후, 해당 이미지가 진짜이거나 또는 가짜인 출력이 생성된다. 판별기를 트레이닝할 경우, 판별기는 분류 손실 함수(loss)를 최소화시킬 필요가 있고, 생성기를 트레이닝할 경우, 생성기는 분류 loss를 최대화시킬 필요가 있으며, 대립 손실로 통합된다. 여기서, UGATIT 아키텍처를 트레이닝할 때 필요한 손실 함수, 즉, 생성기를 트레이닝하는 전반적인 손실은, 1) 전술한 바와 같은 대립 손실, 2) 순환 일치성 손실(즉, 하나의 이미지가A2B 및 B2A를 경유하여 번역된 후, 생성된 이미지와 입력된 이미지의 손실(예를 들어, L1 손실 또는 L2 손실)), 3) 자체 불변 손실(즉, 이미지가 이미지 자체의 도메인에 매핑될 경우, 생성된 이미지와 입력된 이미지의 손실(예를 들어, L1 손실 또는 L2 손실))과 같은 3가지 손실을 포함한다.
본 개시의 기술적 방안에 의하면, 상술한 실시예를 기초로, 해당되는 이미지 분류에 따라 생성된 가상 이미지에 대해 표식을 진행하여, 분류 라벨을 구비하는 가상 이미지 샘플을 생성하고, 가상 이미지 샘플을 이용하여 제2 생성 대결 네트워크에 대해 지도형 트레이닝을 진행하여, 트레이닝된 이미지 대 이미지 번역 모델을 획득하고, 생성된 분류 라벨을 구비하는 가상 이미지 샘플을 이미지 대 이미지 번역 모델에 적용하는 트레이닝 과정을 이용함으로써, 모델 트레이닝을 진행할 때 더 이상 샘플 이미지에 대해 대량의 인위적 표식을 진행할 필요가 없으며, 샘플 이미지의 다양성을 향상시킬 뿐만 아니라, 이미지 샘플 표식 비용을 저감시키고, 모델 트레이닝 효율을 향상시킨다.
상술한 각 실시예를 기초로, 도 3b에 도시된 바와 같이, 트레이닝된 이미지 대 이미지 번역 모델을 획득하는 흐름도를 제공하며, 이는 구체적으로, 대량의 무지도 고해상도 얼굴 데이터 트레이닝 stylegan 모델을 획득하는 단계(S31)와, 트레이닝된 stylegan 모델을 기초로 랜덤 벡터의 샘플링을 진행하여 소량의 이미지 샘플을 생성한 후, 인위적 표식 분류 표식을 진행하여, domainA 데이터 및 domainB 데이터를 획득하고, 획득된 두 그룹의 데이터에 따라 선형 분류기를 트레이닝하되, 수렴 후의 선형 분류기로 확정된 분류 평면의 법선 벡터는 즉 stylegan 공간에서의 속성 벡터 축인 단계(S32)와, 속성 벡터 축 및 분류기를 획득한 후, 샘플링하여 대량의 랜덤 벡터를 획득하고, 선형 분류기를 통해 그의 분류(A 또는 B)를 판단하고, A일 경우, 속성 벡터 축에 따라 랜덤 벡터를 B로 편집하여 새로운 랜덤 벡터를 생성하며, 반대로도 마찬가지이고, 이어서, 이러한 두 개의 이미지 분류의 랜덤 벡터를 모두 stylegan에 입력하여 수량이 기본적으로 일치한 고해상도 쌍 도메인 데이터 집합을 획득할 수 있는 단계(S33)와, 획득된 해당 고해상도 쌍 도메인 데이터 집합을 이용하여 cyclegan 모델을 트레이닝하여, 비조화 이미지 대 이미지 번역 모델을 획득하고, 응용 배치를 진행하는 단계(S34)를 포함한다.
상술한 트레이닝 방법을 통해, 얼굴 속성 데이터에 대해 대량의 인위적 표식을 진행할 필요가 없으므로, 데이터 표식 비용을 대폭으로 절약할 수 있을 뿐만 아니라, 트레이닝 과정이 간단하고, 처리 단계가 적어, 모델 연구 개발 효율이 높다. 또한, 해당 방법을 이용하여 트레이닝한 모델은 수렴이 아주 용이하며, 일반화 성능이 양호하며, stylegan로 생성된 데이터 품질이 상대적으로 높으므로, 그의 생성된 가상 이미지를 이용하여 트레이닝한 이미지 대 이미지 번역 모델의 이미지 번역 효과도 더욱 좋게 된다.
본 출원의 실시예에 의하면, 본 출원은 이미지 생성 장치를 더 제공한다.
도 4에 도시된 바와 같이, 이는 본 개시의 실시예에 따른 일 이미지 생성 장치의 개략적 구조도이다. 해당 장치는 소프트웨어 및/또는 하드웨어의 방식으로 구현되고, 본 출원의 임의의 실시예에 설명된 바와 같은 이미지 생성 방법을 실행할 수 있다. 구체적으로, 이미지 생성 장치(400)는 제1 집합 획득 모듈(401), 이미지 분류 확정 모듈(402) 및 가상 이미지 생성 모듈(403)을 포함한다.
여기서, 제1 집합 획득 모듈(401)은 제1 랜덤 벡터 집합을 획득하도록 구성되고, 이미지 분류 확정 모듈(402)은 트레이닝된 분류기를 기반으로 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정하도록 구성되고, 가상 이미지 생성 모듈(403)은 상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하도록 구성된다.
선택적으로, 이미지 생성 장치(400)는, 상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하기 전에, 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 상기 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하도록 구성되는 이미지 분류 편집 모듈을 더 포함할 수 있다.
선택적으로, 여기서, 이미지 분류 편집 모듈은 구체적으로, 상기 이미지 생성기에 대응되는 이미지 분류 공간의 속성 벡터 축을 획득하도록 구성되되, 상기 속성 벡터 축은 상기 이미지 분류 공간 중 임의의 두 개의 이미지 분류에 대응되는 분류면의 법선 벡터인 벡터 축 획득 유닛과, 상기 속성 벡터 축에 따라 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 상기 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하도록 구성되는 분류 편집 유닛을 포함할 수 있다.
선택적으로, 여기서, 분류 편집 유닛은 구체적으로, 제1 이미지 분류에 해당되는 랜덤 벡터에 상기 속성 벡터 축과 편집 스케일 파라미터의 승적을 가하여, 제2 이미지 분류에 해당되는 랜덤 벡터를 획득하도록 구성되는 제1 편집 서브 유닛, 및/또는 제2 이미지 분류에 해당되는 랜덤 벡터에서 상기 속성 벡터 축과 편집 스케일 파라미터의 승적을 감하여, 제1 이미지 분류에 해당되는 랜덤 벡터를 획득하도록 구성되는 제2 편집 서브 유닛을 포함할 수 있으며, 여기서, 상기 속성 벡터 축은 상기 제1 이미지 분류에 대응되는 이미지 분류 공간에서 상기 제2 이미지 분류에 대응되는 이미지 분류 공간으로 지향된다.
선택적으로, 이미지 생성 장치(400)는, 제2 랜덤 벡터 집합을 획득하도록 구성되는 제2 집합 획득 모듈과, 상기 제2 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 트레이닝된 상기 이미지 생성기에 입력하여, 적어도 하나의 표식하고자 하는 가상 이미지를 생성하도록 구성되는 표식하고자 하는 이미지 생성 모듈과, 상기 표식하고자 하는 가상 이미지 및 기정의 이미지 분류에 따라 상기 랜덤 벡터에 대해 분류 및 표식을 진행하여, 분류 라벨을 구비하는 랜덤 벡터 샘플을 획득하도록 구성되는 이미지 분류 표식 모듈과, 상기 분류 라벨을 구비하는 랜덤 벡터 샘플을 이용하여 기정의 분류 모델에 대해 트레이닝을 진행하여, 트레이닝된 분류기를 획득하도록 구성되는 분류 모델 트레이닝 모듈을 더 포함할 수 있다.
선택적으로, 상기 제1 랜덤 벡터 집합 중의 랜덤 벡터의 수량은 상기 제2 랜덤 벡터 집합 중의 랜덤 벡터의 수량보다 크다.
선택적으로, 이미지 생성 장치(400)는, 분류 라벨이 없는 복수의 실제 이미지를 포함하는 샘플 이미지 데이터 집합을 획득하도록 구성되는 샘플 이미지 획득 모듈과, 상기 샘플 이미지 데이터 집합을 이용하여 제1 생성 대결 네트워크에 대해 무지도형 트레이닝을 진행하여, 트레이닝된 이미지 생성기를 획득하도록 구성되는 생성기 트레이닝 모듈을 더 포함할 수 있다.
선택적으로, 이미지 생성 장치(400)는, 상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성한 후, 해당되는 이미지 분류에 따라 상기 가상 이미지에 대해 표식을 진행하여, 분류 라벨을 구비하는 가상 이미지 샘플을 생성하도록 구성되는 가상 이미지 표식 모듈과, 상기 가상 이미지 샘플을 이용하여 제2 생성 대결 네트워크에 대해 지도형 트레이닝을 진행하여, 트레이닝된 이미지 대 이미지 번역 모델을 획득하도록 구성되되, 상기 이미지 대 이미지 번역 모델은 입력된 이미지를 해당되는 이미지 분류에서 기타 이미지 분류의 이미지로 번역하도록 구성되는 번역 모델 트레이닝 모듈을 더 포함할 수 있다.
본 출원의 실시예에서 제공하는 이미지 생성 장치는 본 출원의 임의의 실시예에서 제공하는 이미지 생성 방법을 실행하며, 실행 방법에 대응되는 기능 모듈 및 유익한 효과를 구비할 수 있다.
본 출원의 실시예에 의하면, 본 출원은 전자 장치 및 판독 가능한 저장 매체를 더 제공한다.
도 5에 도시된 바와 같이, 이는 본 출원의 실시예의 이미지 생성 방법에 따른 전자 장치의 블록도이다. 전자 장치는 각종 형식의 디지털 컴퓨터, 예컨대 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 디지털 어시스턴트, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터를 가리키고자 한다. 전자 장치는 각종 형식의 이동 장치, 예컨대, 개인 디지털 처리 장치, 휴대폰, 스마트 폰, 웨어러블 장치 및 기타 유사한 컴퓨팅 장치를 가리킬 수도 있다. 본원에 도시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것이며, 본 원에 설명된 및/또는 요구되는 본 출원의 구현을 한정하고자 하지 않는다.
도 5에 도시된 바와 같이, 해당 전자 장치는, 하나 또는 다수의 프로세서(501), 메모리 장치(502), 및 고속 인터페이스와 저속 인터페이스를 포함하여 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되며, 공동 메인 보드에 장착되거나 수요에 따라 기타의 방식으로 장착될 수 있다. 프로세서는 전자 장치 내에서 실행되는 명령어에 대해 처리를 진행할 수 있으며, 메모리 장치에 또는 메모리 장치 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 연결된 표지 장치) 상에서 GUI를 나타내는 도형 정보의 명령어를 포함한다. 기타의 실시예에 있어서, 필요할 경우, 다수의 프로세서 및/또는 다수의 버스와 다수의 메모리 장치를 다수의 메모리 장치와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 장치를 연결할 수 있으며, 각 전자 장치는 일부의 필요한 조작(예컨대, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 5에서는 하나의 프로세서(501)를 예로 든다.
메모리 장치(502)는 즉 본 출원에서 제공하는 비 일시적 컴퓨터 판독 가능한 저장 매체이다. 여기서, 상기 메모리 장치에는 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어, 상기 적어도 하나의 프로세서로 본 출원에서 제공하는 이미지 생성 방법을 실행한다. 본 출원의 비 일시적 컴퓨터 판독 가능한 저장 매체는 컴퓨터 명령어를 저장하고, 해당 컴퓨터 명령어는 컴퓨터로 본 출원에서 제공하는 이미지 생성 방법을 실행시키도록 구성된다.
메모리 장치(502)는 비 일시적 컴퓨터 판독 가능한 저장 매체로서, 본 출원의 실시예 중의 이미지 생성 방법에 대응되는 프로그램 명령어/모듈(예컨대, 도 4에 도시된 제1 집합 획득 모듈(401), 이미지 분류 확정 모듈(402) 및 가상 이미지 생성 모듈(403))과 같은 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터로 실행 가능한 프로그램 및 모듈을 저장하도록 구성될 수 있다. 프로세서(501)는 메모리 장치(502)에 저장된 비 일시적 소프트웨어 프로그램, 명령어 및 모듈을 운행시킴으로써, 서버의 각종의 기능 응용 및 데이터 처리를 실행하며, 즉, 상술한 방법 실시예 중의 이미지 생성 방법을 구현한다.
메모리 장치(502)는 프로그램 저장 구간 및 데이터 저장 구간을 포함할 수 있으며, 여기서, 프로그램 저장 구간은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며, 데이터 저장 구간은 이미지 생성 방법의 전자 장치의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 또한, 메모리 장치(502)는 고속 랜덤 액세스 메모리 장치를 포함할 수 있으며, 비 일시적 메모리 장치, 예컨대, 적어도 하나의 자기 디스크 메모리 소자, 플래시 소자 또는 기타 비 일시적 솔리드 스테이트 메모리 소자를 더 포함할 수 있다. 일부의 실시예에 있어서, 메모리 장치(502)는 선택적으로 프로세서(501)에 대해 원격으로 설치된 메모리 장치를 포함하며, 이러한 원격 메모리 장치는 네트워크를 통해 이미지 생성 방법의 전자 장치에 연결될 수 있다. 상술한 네트워크의 예시는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하나, 이에 한정되지 않는다.
이미지 생성 방법의 전자 장치는 입력 장치(503) 및 출력 장치(504)를 더 포함할 수 있다. 프로세서(501), 메모리 장치(502), 입력 장치(503) 및 출력 장치(504)는 버스 또는 기타의 방식으로 연결될 수 있으며, 도 5에서는 버스를 통해 연결되는 것을 예로 든다.
입력 장치(503)는 입력되는 디지털 또는 문자 정보를 수신하고, 이미지 생성 방법의 전자 장치의 사용자 설정 및 기능 제어에 관련된 키 신호 입력을 발생할 수 있으며, 예컨대, 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 지시 레버, 하나 또는 다수의 마우스 버튼, 트랙 볼, 조작 레버 등의 입력 장치이다. 출력 장치(504)는 표시 장치, 보조 조명 장치(예컨대, LED) 및 터치 피드백 장치(예컨대, 진동 모터) 등을 포함할 수 있다. 해당 표시 장치는 액정 표시 장치(LCD), 발광 다이오드(LED) 표시 장치 및 플라즈마 표시 장치를 포함할 수 있으나, 이에 한정되지 않는다. 일부의 실시예에 있어서, 표시 장치는 터치 스크린일 수 있다.
본 원에 설명된 시스템 및 기술의 각종의 실시예는 디지털 전자 회로 시스템, 집적 회로 시스템, 특정 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 각종의 실시예는, 하나 또는 다수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 해당 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍 가능한 시스템 상에서 실행 및/또는 해석될 수 있으며, 해당 프로그래밍 가능한 프로세서는 특정 또는 범용 프로그래밍 가능한 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신할 수 있으며, 데이터 및 명령어는 해당 저장 시스템, 해당 적어도 하나의 입력 장치 및 해당 적어도 하나의 출력 장치에 전송된다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로도 지칭됨)은 프로그래밍 가능한 프로세서의 기계 명령어를 포함하고, 고급 공정 및/또는 객체 지향의 프로그래밍 언어 및/또는 편집/기계 언어를 이용하여 컴퓨팅 프로그램을 실시할 수 있다. 본 원에 사용되는 바와 같이, 용어 "기계 판독 가능한 매체" 및 "컴퓨터 판독 가능한 매체"는 기계 명령어 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예컨대, 자기 디스크, 광학 디스크, 메모리 장치, 프로그래밍 가능한 논리 장치(PLD))를 가리키며, 기계 판독 가능한 신호인 기계 명령어를 수신하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호"는 기계 명령어 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위한 임의의 신호를 가리킨다.
사용자와의 상호 작용을 제공하기 위하여, 컴퓨터 상에서 본 원에 설명된 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 나타내기 위한 표시 장치(예컨대, CRT(음극관) 또는 LCD(액정 표시 장치) 모니터), 및 키보드 및 지향 장치(예컨대, 마우스 또는 트랙볼)를 구비하며, 사용자는 해당 키보드 및 해당 지향 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 사용자와의 상호 작용을 제공하도록 더 구성될 수 있으며, 예를 들어, 사용자에게 제공하는 피드백은 임의의 형식의 감지 피드백(예컨대, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있으며, 임의의 형식(음향 입력, 음성 입력 또는 터치 입력)으로 사용자의 입력을 수신할 수 있다.
본 원에 설명된 시스템 및 기술은 백 엔드 부재를 포함하는 컴퓨팅 시스템(예컨대, 데이터 서버로서) 또는 중간 부재를 포함하는 컴퓨팅 시스템(예컨대, 응용 서버) 또는 프런트 엔드 부재를 포함하는 컴퓨팅 시스템(예컨대, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 웹 브라우저를 통해 본 원에 설명된 시스템 및 기술의 실시예를 통해 상호 작용을 진행할 수 있음) 또는 이러한 백 엔드 부재, 중간 부재 또는 프런트 엔드 부재를 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시될 수 있다. 시스템의 부재는 임의의 형식 또는 매체의 디지털 데이터 통신(통신망)를 통해 서로 연결될 수 있다. 통신망의 예시는 근거리 통신망(LAN), 광역 통신망(WAN), 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 측 및 서버를 포함할 수 있다. 클라이언트 측과 서버는 일반적으로 서로 멀리 떨어져 있으며, 통상적으로 통신망를 통해 상호 작용을 진행한다. 클라이언트 측과 서버의 관계는 상응한 컴퓨터 상에서 운행되고 서로 클라이언트 측-서버 관계를 구비하는 컴퓨터 프로그램을 통해 발생한다.
본 출원의 실시예의 기술적 방안에 의하면, 제1 랜덤 벡터 집합을 획득하고, 트레이닝된 분류기를 기반으로, 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정하고, 해당 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 해당 이미지 분류에 해당되는 가상 이미지를 생성함으로써, 분류기와 이미지 생성기를 결합하여 사용하는 장점을 이용하여 기존의 기술에서 명확한 분류를 구비하는 이미지를 획득하기 어려운 문제점을 해결하여, 명확한 분류를 구비하는 대량의 이미지의 자동 생성을 실현할 뿐만 아니라, 이미지 다양성을 향상시키고, 이미지 분류 비용을 저감시킨다.
앞서 도시된 각종 형식의 흐름을 사용하거나, 단계에 대한 재 배열, 추가 또는 삭제를 진행할 수 있음을 이해하여야 한다. 예를 들어, 본 출원에 개시된 기술적 방안의 원하는 결과를 실현할 수만 있다면, 본 출원에 기재된 각 단계는 병렬로 실행될 수 있으며, 순차적으로 실행될 수도 있으며, 상이한 순서로 실행될 수도 있으며, 본 출원에서 이에 대한 한정을 진행하지 않는다.
상술한 구체적은 실시예는 본 출원의 보호 범위에 대한 한정을 구성하지 않는다. 설계 요구 및 기타의 요소에 따라 각종의 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 당해 기술 분야의 당업자는 자명할 것이다. 본 출원의 사상 및 원칙 내에서 진행하는 임의의 수정, 균등한 대체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims (19)

  1. 이미지 생성 방법에 있어서,
    제1 랜덤 벡터 집합을 획득하는 단계와,
    트레이닝된 분류기를 기반으로 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정하는 단계와,
    상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하는 단계를 포함하는 이미지 생성 방법.
  2. 제1항에 있어서,
    상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하는 단계 이전에,
    상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 상기 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하는 단계를 더 포함하는 이미지 생성 방법.
  3. 제2항에 있어서,
    상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 상기 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하는 단계는,
    상기 이미지 생성기에 대응되는 이미지 분류 공간의 속성 벡터 축을 획득하되, 상기 속성 벡터 축은 상기 이미지 분류 공간 중 임의의 두 개의 이미지 분류에 대응되는 분류면의 법선 벡터인 단계와,
    상기 속성 벡터 축에 따라, 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 상기 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하는 단계를 포함하는 이미지 생성 방법.
  4. 제3항에 있어서,
    상기 속성 벡터 축에 따라, 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 상기 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하는 단계는,
    제1 이미지 분류에 해당되는 랜덤 벡터에 상기 속성 벡터 축과 편집 스케일 파라미터의 승적을 가하여, 제2 이미지 분류에 해당되는 랜덤 벡터를 획득하는 단계, 또는
    제2 이미지 분류에 해당되는 랜덤 벡터에서 상기 속성 벡터 축과 편집 스케일 파라미터의 승적을 감하여, 제1 이미지 분류에 해당되는 랜덤 벡터를 획득하는 단계 중 적어도 하나를 포함하되,
    상기 속성 벡터 축은 상기 제1 이미지 분류에 대응되는 이미지 분류 공간에서 상기 제2 이미지 분류에 대응되는 이미지 분류 공간으로 지향되는 이미지 생성 방법.
  5. 제1항에 있어서,
    제2 랜덤 벡터 집합을 획득하는 단계와,
    상기 제2 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 트레이닝된 상기 이미지 생성기에 입력하여, 적어도 하나의 표식하고자 하는 가상 이미지를 생성하는 단계와,
    상기 표식하고자 하는 가상 이미지 및 기정의 이미지 분류에 따라 상기 랜덤 벡터에 대해 분류 및 표식을 진행하여, 분류 라벨을 구비하는 랜덤 벡터 샘플을 획득하는 단계와,
    상기 분류 라벨을 구비하는 랜덤 벡터 샘플을 이용하여 기정의 분류 모델에 대해 트레이닝을 진행하여, 트레이닝된 분류기를 획득하는 단계를 더 포함하는 이미지 생성 방법.
  6. 제5항에 있어서,
    상기 제1 랜덤 벡터 집합 중의 랜덤 벡터의 수량은 상기 제2 랜덤 벡터 집합 중의 랜덤 벡터의 수량보다 큰 이미지 생성 방법.
  7. 제1항에 있어서,
    분류 라벨이 없는 복수의 실제 이미지를 포함하는 샘플 이미지 데이터 집합을 획득하는 단계와,
    상기 샘플 이미지 데이터 집합을 이용하여 제1 생성 대결 네트워크에 대해 무지도형 트레이닝을 진행하여, 트레이닝된 이미지 생성기를 획득하는 단계를 더 포함하는 이미지 생성 방법.
  8. 제1항 내지 제7항 중 임의의 한 항에 있어서,
    상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하는 단계 이후에,
    해당되는 이미지 분류에 따라 상기 가상 이미지에 대해 표식을 진행하여, 분류 라벨을 구비하는 가상 이미지 샘플을 생성하는 단계와,
    상기 가상 이미지 샘플을 이용하여 제2 생성 대결 네트워크에 대해 지도형 트레이닝을 진행하여, 트레이닝된 이미지 대 이미지 번역 모델을 획득하되, 상기 이미지 대 이미지 번역 모델은 입력된 이미지를 해당되는 이미지 분류에서 기타 이미지 분류의 이미지로 번역하도록 구성되는 단계를 더 포함하는 이미지 생성 방법.
  9. 이미지 생성 장치에 있어서,
    제1 랜덤 벡터 집합을 획득하도록 구성되는 제1 집합 획득 모듈과,
    트레이닝된 분류기를 기반으로 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터가 해당되는 이미지 분류를 확정하도록 구성되는 이미지 분류 확정 모듈과,
    상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하도록 구성되는 가상 이미지 생성 모듈을 포함하는 이미지 생성 장치.
  10. 제9항에 있어서,
    상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성하기 전에, 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 상기 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하도록 구성되는 이미지 분류 편집 모듈을 더 포함하는 이미지 생성 장치.
  11. 제10항에 있어서,
    상기 이미지 분류 편집 모듈은,
    상기 이미지 생성기에 대응되는 이미지 분류 공간의 속성 벡터 축을 획득하도록 구성되되, 상기 속성 벡터 축은 상기 이미지 분류 공간 중 임의의 두 개의 이미지 분류에 대응되는 분류면의 법선 벡터인 벡터 축 획득 유닛과,
    상기 속성 벡터 축에 따라, 상기 제1 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 해당되는 이미지 분류에서 상기 이미지 분류 이외의 기타 이미지 분류로 편집하여, 기타 이미지 분류에 해당되는 기타 랜덤 벡터를 획득하도록 구성되는 분류 편집 유닛을 포함하는 이미지 생성 장치.
  12. 제11항에 있어서,
    상기 분류 편집 유닛은,
    제1 이미지 분류에 해당되는 랜덤 벡터에 상기 속성 벡터 축과 편집 스케일 파라미터의 승적을 가하여, 제2 이미지 분류에 해당되는 랜덤 벡터를 획득하도록 구성되는 제1 편집 서브 유닛, 또는
    제2 이미지 분류에 해당되는 랜덤 벡터에서 상기 속성 벡터 축과 편집 스케일 파라미터의 승적을 감하여, 제1 이미지 분류에 해당되는 랜덤 벡터를 획득하도록 구성되는 제2 편집 서브 유닛 중 적어도 하나를 포함하되,
    상기 속성 벡터 축은 상기 제1 이미지 분류에 대응되는 이미지 분류 공간에서 상기 제2 이미지 분류에 대응되는 이미지 분류 공간으로 지향하는 이미지 생성 장치.
  13. 제9항에 있어서,
    제2 랜덤 벡터 집합을 획득하도록 구성되는 제2 집합 획득 모듈과,
    상기 제2 랜덤 벡터 집합 중의 적어도 하나의 랜덤 벡터를 트레이닝된 상기 이미지 생성기에 입력하여, 적어도 하나의 표식하고자 하는 가상 이미지를 생성하도록 구성되는 표식하고자 하는 이미지 생성 모듈과,
    상기 표식하고자 하는 가상 이미지 및 기정의 이미지 분류에 따라 상기 랜덤 벡터에 대해 분류 및 표식을 진행하여, 분류 라벨을 구비하는 랜덤 벡터 샘플을 획득하도록 구성되는 이미지 분류 표식 모듈과,
    상기 분류 라벨을 구비하는 랜덤 벡터 샘플을 이용하여 기정의 분류 모델에 대해 트레이닝을 진행하여, 트레이닝된 분류기를 획득하도록 구성되는 분류 모델 트레이닝 모듈을 더 포함하는 이미지 생성 장치.
  14. 제13항에 있어서,
    상기 제1 랜덤 벡터 집합 중의 랜덤 벡터의 수량은 상기 제2 랜덤 벡터 집합 중의 랜덤 벡터의 수량보다 큰 이미지 생성 장치.
  15. 제9항에 있어서,
    분류 라벨이 없는 복수의 실제 이미지를 포함하는 샘플 이미지 데이터 집합을 획득하도록 구성되는 샘플 이미지 획득 모듈과,
    상기 샘플 이미지 데이터 집합을 이용하여 제1 생성 대결 네트워크에 대해 무지도형 트레이닝을 진행하여, 트레이닝된 이미지 생성기를 획득하도록 구성되는 생성기 트레이닝 모듈을 더 포함하는 이미지 생성 장치.
  16. 제9항 내지 제15항 중 임의의 한 항에 있어서,
    상기 이미지 분류에 해당되는 랜덤 벡터를 트레이닝된 이미지 생성기에 입력하여, 상기 이미지 분류에 해당되는 가상 이미지를 생성한 후, 해당되는 이미지 분류에 따라 상기 가상 이미지에 대해 표식을 진행하여, 분류 라벨을 구비하는 가상 이미지 샘플을 생성하도록 구성되는 가상 이미지 표식 모듈과,
    상기 가상 이미지 샘플을 이용하여 제2 생성 대결 네트워크에 대해 지도형 트레이닝을 진행하여, 트레이닝된 이미지 대 이미지 번역 모델을 획득하도록 구성되되, 상기 이미지 대 이미지 번역 모델은 입력된 이미지를 해당되는 이미지 분류에서 기타 이미지 분류의 이미지로 번역하도록 구성되는 번역 모델 트레이닝 모듈을 더 포함하는 이미지 생성 장치.
  17. 적어도 하나의 프로세서와,
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리 장치를 포함하는 전자 기기에 있어서,
    상기 메모리 장치에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되고, 상기 명령어가 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제8항 중의 임의의 한 항의 방법을 실행할 수 있도록 하는 전자 기기.
  18. 컴퓨터 명령어가 저장되는 비 일시적 컴퓨터 판독 가능한 저장 매체에 있어서,
    상기 컴퓨터 명령어는 상기 컴퓨터가 제1항 내지 제8항 중의 임의의 한 항의 방법을 실행하도록 하는 비 일시적 컴퓨터 판독 가능한 저장 매체.
  19. 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제8항 중 어느 한 항에 따른 방법을 구현하도록 하는 컴퓨터 프로그램.
KR1020210032190A 2020-06-08 2021-03-11 이미지 생성 방법, 장치, 기기 및 매체 KR20210152371A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010514466.9 2020-06-08
CN202010514466.9A CN111709470B (zh) 2020-06-08 2020-06-08 图像生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
KR20210152371A true KR20210152371A (ko) 2021-12-15

Family

ID=72539880

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210032190A KR20210152371A (ko) 2020-06-08 2021-03-11 이미지 생성 방법, 장치, 기기 및 매체

Country Status (5)

Country Link
US (1) US20210232932A1 (ko)
EP (1) EP3839824B1 (ko)
JP (1) JP7308235B2 (ko)
KR (1) KR20210152371A (ko)
CN (1) CN111709470B (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613411B (zh) * 2020-12-25 2022-05-27 浙江大学 基于生成对抗网络的行人重识别数据集姿态数据增广方法
CN112836755B (zh) * 2021-02-05 2024-04-16 中国科学院深圳先进技术研究院 基于深度学习的样本图像生成方法及其系统
CN114140603B (zh) * 2021-12-08 2022-11-11 北京百度网讯科技有限公司 虚拟形象生成模型的训练方法和虚拟形象生成方法
CN114155366B (zh) * 2022-02-07 2022-05-20 北京每日优鲜电子商务有限公司 动态柜图像识别模型训练方法、装置、电子设备和介质
CN115170807B (zh) * 2022-09-05 2022-12-02 浙江大华技术股份有限公司 一种图像分割、模型训练方法、装置、设备及介质
CN116011084B (zh) * 2023-02-20 2023-11-28 中国建筑西南设计研究院有限公司 结构平面布置整体生成方法、装置、电子设备及存储介质
CN117218034A (zh) * 2023-10-09 2023-12-12 脉得智能科技(无锡)有限公司 一种图像增强方法、装置、电子设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262853B2 (en) * 2013-03-15 2016-02-16 Disney Enterprises, Inc. Virtual scene generation based on imagery
JP6325405B2 (ja) * 2014-09-22 2018-05-16 株式会社東芝 特徴点検出装置、方法及びプログラム
CN107273978B (zh) * 2017-05-25 2019-11-12 清华大学 一种三模型博弈的产生式对抗网络模型的建立方法及装置
CN108388925A (zh) * 2018-03-06 2018-08-10 天津工业大学 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法
CN108763874A (zh) * 2018-05-25 2018-11-06 南京大学 一种基于生成对抗网络的染色体分类方法及装置
JP2019207561A (ja) * 2018-05-29 2019-12-05 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JP7139749B2 (ja) * 2018-07-23 2022-09-21 日本電信電話株式会社 画像認識学習装置、画像認識装置、方法、及びプログラム
US11087174B2 (en) * 2018-09-25 2021-08-10 Nec Corporation Deep group disentangled embedding and network weight generation for visual inspection
CN109871888A (zh) * 2019-01-30 2019-06-11 中国地质大学(武汉) 一种基于胶囊网络的图像生成方法及系统
CN109919252B (zh) * 2019-03-26 2020-09-01 中国科学技术大学 利用少数标注图像生成分类器的方法
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法
CN110503703B (zh) * 2019-08-27 2023-10-13 北京百度网讯科技有限公司 用于生成图像的方法和装置

Also Published As

Publication number Publication date
CN111709470B (zh) 2023-10-03
EP3839824B1 (en) 2023-11-08
US20210232932A1 (en) 2021-07-29
EP3839824A3 (en) 2021-10-06
JP7308235B2 (ja) 2023-07-13
JP2021193546A (ja) 2021-12-23
EP3839824A2 (en) 2021-06-23
CN111709470A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
KR20210152371A (ko) 이미지 생성 방법, 장치, 기기 및 매체
US20230022550A1 (en) Image processing method, method for training image processing model devices and storage medium
JP7335907B2 (ja) 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
Yao et al. Deep learning from noisy image labels with quality embedding
JP7373554B2 (ja) クロスドメイン画像変換
KR20210035785A (ko) 지식 표현 학습 방법, 장치, 전자 기기, 저장 매체 및 프로그램
Cai et al. Dualattn-GAN: Text to image synthesis with dual attentional generative adversarial network
US20220222925A1 (en) Artificial intelligence-based image processing method and apparatus, device, and storage medium
US20210319335A1 (en) Question analysis method, device, knowledge base question answering system and electronic equipment
US11488283B1 (en) Point cloud reconstruction method and apparatus based on pyramid transformer, device, and medium
Bi et al. Cross-modal hierarchical interaction network for RGB-D salient object detection
CN114820871B (zh) 字体生成方法、模型的训练方法、装置、设备和介质
Yang et al. Spatio-temporal domain awareness for multi-agent collaborative perception
US8392842B1 (en) Quick search for replacement of portion of image
CN111539897A (zh) 用于生成图像转换模型的方法和装置
CN112257471A (zh) 一种模型训练方法、装置、计算机设备及存储介质
Zhang Application of AI-based real-time gesture recognition and embedded system in the design of English major teaching
CN116611496A (zh) 文本到图像的生成模型优化方法、装置、设备及存储介质
Chen et al. Coogan: A memory-efficient framework for high-resolution facial attribute editing
CN111930915A (zh) 会话信息处理方法、装置、计算机可读存储介质及设备
Wang et al. Semantic-guided information alignment network for fine-grained image recognition
Xia et al. Combination of multi‐scale and residual learning in deep CNN for image denoising
CN113850714A (zh) 图像风格转换模型的训练、图像风格转换方法及相关装置
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN114281933A (zh) 文本处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal