KR102445932B1 - Image generation technique using multi-modal mapping information on knowledge distillation - Google Patents

Image generation technique using multi-modal mapping information on knowledge distillation Download PDF

Info

Publication number
KR102445932B1
KR102445932B1 KR1020200144691A KR20200144691A KR102445932B1 KR 102445932 B1 KR102445932 B1 KR 102445932B1 KR 1020200144691 A KR1020200144691 A KR 1020200144691A KR 20200144691 A KR20200144691 A KR 20200144691A KR 102445932 B1 KR102445932 B1 KR 102445932B1
Authority
KR
South Korea
Prior art keywords
image
text
model
text summary
information
Prior art date
Application number
KR1020200144691A
Other languages
Korean (ko)
Other versions
KR20220059288A (en
Inventor
조인휘
김현주
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020200144691A priority Critical patent/KR102445932B1/en
Publication of KR20220059288A publication Critical patent/KR20220059288A/en
Application granted granted Critical
Publication of KR102445932B1 publication Critical patent/KR102445932B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Image Processing (AREA)

Abstract

지식 증류 기반의 멀티모달 매핑 정보를 활용한 이미지 생성 기법이 개시된다. 일 실시예에 따른 이미지 생성 방법은, 기 학습된 텍스트 요약 모델을 이용하여 텍스트 데이터로부터 텍스트 요약 정보를 생성하는 단계; 및 기 학습된 이미지 모델에 상기 생성된 텍스트 요약 정보를 입력함에 따라 기 학습된 이미지 모델을 이용하여 상기 생성된 텍스트 요약 정보에 대한 새로운 이미지를 생성하는 단계를 포함할 수 있다.An image generation technique using multimodal mapping information based on knowledge distillation is disclosed. An image generating method according to an embodiment includes: generating text summary information from text data using a pre-trained text summary model; and generating a new image for the generated text summary information using the pre-learned image model as the generated text summary information is input to the pre-trained image model.

Figure R1020200144691
Figure R1020200144691

Description

지식 증류 기반의 멀티모달 매핑 정보를 활용한 이미지 생성 기법{IMAGE GENERATION TECHNIQUE USING MULTI-MODAL MAPPING INFORMATION ON KNOWLEDGE DISTILLATION}Image generation technique using multimodal mapping information based on knowledge distillation {IMAGE GENERATION TECHNIQUE USING MULTI-MODAL MAPPING INFORMATION ON KNOWLEDGE DISTILLATION}

아래의 설명은 텍스트 데이터로부터 이미지를 생성하는 기술에 관한 것이다. The description below relates to techniques for generating images from text data.

시각적 품질 문제를 해결하기 위해 GAWWN 방법론은 제안한 객체 별 명확한 글로벌 구조로 이미지 생성 및 부분 키 포인트 위치의 제약을 가지고 있다. 생성된 이미지는 올바른 개체 모양과 색상을 가지고 있지만 자연스럽지 못하다. 시각적 품질 문제를 해결하기 위해 Stack-GAN 두 단계로 이루어지는데, 첫 번째 단계는 두 번째 단계에서 사용하는 동안 거친 구조의 이미지 이러한 이미지를 입력으로 사용하여 더 많은 로컬 이미지를 추가로 생성한다.In order to solve the visual quality problem, the GAWWN methodology has the limitations of image creation and partial key point location with a clear global structure for each object. The generated image has the correct object shape and color, but is not natural. To solve the visual quality problem, the Stack-GAN consists of two steps, the first step is an image of the coarse structure during use in the second step. Using these images as input, more local images are further generated.

비특허문헌(Zhang et al. "Photographic text-to-image synthesiswith a hierarchically-nested adversarial network,")에 계층적으로 중첩된 적대적 도입하여 고해상도 이미지 통계를 모델링 할 수 있는 네트워크로 사진 이미지를 생성하는 것이 개시되어 있다. In the non-patent literature (Zhang et al. "Photographic text-to-image synthesis with a hierarchically-nested adversarial network,") hierarchically-nested adversarial network, the hierarchically-nested adversarial network was introduced to create photographic images as a network capable of modeling high-resolution image statistics. has been disclosed.

그러나 종래의 기술은 다음과 같은 시맨틱 일관성 문제, 시각적 품질 문제, 학습의 난이도 및 속도 문제 등 다양한 문제를 가지고 있다. However, the prior art has various problems such as the following semantic consistency problem, visual quality problem, difficulty and speed problem of learning.

시맨틱 일관성 문제는 배포와 표현 모두에서 일관성이 없는 텍스트 설명과 이미지 콘텐츠 간의 불일치 문제를 의미한다. 시맨틱 일관성 문제는 이미지 캡션과 같은 다른 교차 모달 작업에도 존재한다. 시맨틱 일관성 문제를 위해 텍스트 특징 공간에서 이미지 픽셀 공간으로의 매핑을 학습하고 합성 이미지에서 텍스트 설명의 시각적 정보를 보여준다. 그러나 이들의 성능은 텍스트 설명에서 시각적 정보를 완전히 활용할 수 없는 이기종 상관 프레임워크에 의해 제한적으로 나타난다. The semantic consistency problem refers to the problem of inconsistency between text description and image content that is inconsistent in both distribution and presentation. Semantic consistency issues also exist for other cross-modal tasks such as image captions. For the semantic consistency problem, we learn the mapping from the text feature space to the image pixel space and show the visual information of the text description in the composite image. However, their performance is limited by heterogeneous correlation frameworks that cannot fully utilize visual information in text descriptions.

시각적 품질 문제는 고차원 공간에서 실제 이미지와 합성 이미지의 데이터 분포 간의 불일치 문제를 의미한다. 고차원 공간에서 직접 이미지 데이터 분포를 근사화하는 것은 어렵다. 시각적 품질 문제는 이미지 합성 작업에서 일반적이다. The visual quality problem refers to the problem of inconsistency between the data distribution of the real image and the synthetic image in a high-dimensional space. It is difficult to approximate the image data distribution directly in high-dimensional space. Visual quality issues are common in image compositing tasks.

이전에 널리 사용된 적대적 훈련 패러다임은 피드 포워드 구조로 인해 모델 내에서 최적화 및 매개변수 조정이 어려웠으며, 매개변수 조정이 잘못되면 오랜시간 학습해야 하거나 학습이 잘 되지 않는 학습의 난이도 및 속도 문제 문제가 있었다. The previously widely used adversarial training paradigm has had difficulties in optimization and parameter adjustment within the model due to the feed-forward structure. there was.

텍스트 데이터로부터 이미지를 생성하는 방법 및 시스템을 제공할 수 있다. 구체적으로, 텍스트 데이터로부터 지식 증류(Knowledge distillation)를 통해 텍스트 요약(summarization)을 수행한 결과와 기 학습된(Pre-trained) 이미지 인식 모델로부터 지식 증류한 결과를 조합하여 새로운 이미지 생성하는 방법 및 시스템을 제공할 수 있다. A method and system for generating an image from text data may be provided. Specifically, a method and system for generating a new image by combining the result of text summarization through knowledge distillation from text data and the result of knowledge distillation from a pre-trained image recognition model can provide

이미지 생성 방법은, 기 학습된 텍스트 요약 모델을 이용하여 텍스트 데이터로부터 텍스트 요약 정보를 생성하는 단계; 및 기 학습된 이미지 모델에 상기 생성된 텍스트 요약 정보를 입력함에 따라 기 학습된 이미지 모델을 이용하여 상기 생성된 텍스트 요약 정보에 대한 새로운 이미지를 생성하는 단계를 포함할 수 있다. The image generating method includes: generating text summary information from text data using a pre-trained text summary model; and generating a new image for the generated text summary information using the pre-learned image model as the generated text summary information is input to the pre-trained image model.

상기 텍스트 요약 정보를 생성하는 단계는, 상기 텍스트 데이터를 기 학습된 텍스트 요약 모델에 입력하고, 기 학습된 텍스트 요약 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 상기 텍스트 데이터로부터 텍스트 요약 정보를 생성하고, 텍스트 요약의 결과로서 텍스트 임베딩을 출력하는 단계를 포함할 수 있다. The generating of the text summary information includes inputting the text data into a pre-trained text summary model, and extracting text summary information from the text data through a knowledge distillation technique using the pre-trained text summary model. generating and outputting a text embedding as a result of the text summary.

상기 이미지를 생성하는 단계는, 기 학습된 이미지 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 지식 추출을 수행함으로써 상기 생성된 텍스트 요약 정보로부터 이미지의 픽셀 특징 공간에서의 데이터 분포를 탐색하는 단계를 포함할 수 있다. The generating of the image may include: searching for data distribution in a pixel feature space of an image from the generated text summary information by performing knowledge extraction through a knowledge distillation technique using a pre-learned image model may include.

상기 이미지를 생성하는 단계는, 상기 생성된 텍스트 요약 정보를 텍스트 투 이미지(Text to Image)의 과정을 통해 이미지 정보로 변환하고, 상기 변환된 이미지 정보로부터 객체 정보를 검색하여 가장 유사한 객체를 검색하는 단계를 포함할 수 있다. The step of generating the image includes converting the generated text summary information into image information through a text to image process, and searching for the most similar object by searching for object information from the converted image information. may include steps.

상기 이미지를 생성하는 단계는, 상기 검색된 가장 유사한 객체를 포함하는 이미지를 기 학습된 이미지 모델에 입력하고, 상기 기 학습된 이미지 모델을 이용하여 상기 검색된 가장 유사한 객체와 관련된 제1차 유사 이미지를 획득하는 단계를 포함할 수 있다. The generating of the image may include inputting an image including the found most similar object into a pre-trained image model, and obtaining a first similar image related to the found most similar object using the pre-trained image model may include the step of

상기 이미지를 생성하는 단계는, 상기 획득된 제1 차 유사 이미지를 GAN 기반의 이미지 생성자에 입력하고, 상기 GAN 기반의 이미지 생성자를 통해 상기 획득된 제1 차 유사 이미지에 대한 픽셀 정보에 기초하여 제2차 유사 이미지를 생성하는 단계를 포함할 수 있다. The generating of the image may include inputting the obtained first similarity image to a GAN-based image generator, and using the GAN-based image generator to generate a second similar image based on pixel information on the obtained first similar image. It may include generating a second similar image.

상기 이미지를 생성하는 단계는, 상기 생성된 제2 차 유사 이미지를 이미지 투 텍스트(Image to Text)의 과정을 통해 상기 임베딩 벡터와의 정확도를 평가하고, 상기 평가된 정확도에 따라 상기 생성된 제2차 유사 이미지를 이미지 생성의 결과로서 제공하는 단계를 포함할 수 있다. The generating of the image may include evaluating the accuracy of the generated second similar image with the embedding vector through an image to text process, and the generated second similar image according to the evaluated accuracy. providing a car-like image as a result of generating the image.

이미지 생성 시스템은, 기 학습된 텍스트 요약 모델을 이용하여 텍스트 데이터로부터 텍스트 요약 정보를 생성하는 텍스트 요약부; 및 기 학습된 이미지 모델에 상기 생성된 텍스트 요약 정보를 입력함에 따라 기 학습된 이미지 모델을 이용하여 상기 생성된 텍스트 요약 정보에 대한 새로운 이미지를 생성하는 이미지 생성부를 포함할 수 있다. The image generating system includes: a text summary unit generating text summary information from text data using a pre-trained text summary model; and an image generator configured to generate a new image for the generated text summary information using the pre-learned image model as the generated text summary information is input to the pre-trained image model.

상기 텍스트 요약부는, 상기 텍스트 데이터를 기 학습된 텍스트 요약 모델에 입력하고, 기 학습된 텍스트 요약 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 상기 텍스트 데이터로부터 텍스트 요약 정보를 생성하고, 텍스트 요약의 결과로서 텍스트 임베딩을 출력할 수 있다. The text summary unit inputs the text data into a pre-trained text summary model, and generates text summary information from the text data through a knowledge distillation technique using the pre-learned text summary model, and summarizes the text. You can output text embeddings as a result of

상기 이미지 생성부는, 기 학습된 이미지 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 지식 추출을 수행함으로써 상기 생성된 텍스트 요약 정보로부터 이미지의 픽셀 특징 공간에서의 데이터 분포를 탐색할 수 있다. The image generator may search for data distribution in a pixel feature space of an image from the generated text summary information by performing knowledge extraction through a knowledge distillation technique using a pre-learned image model.

상기 이미지 생성부는, 상기 생성된 텍스트 요약 정보를 텍스트 투 이미지(Text to Image)의 과정을 통해 이미지 정보로 변환하고, 상기 변환된 이미지 정보로부터 객체 정보를 검색하여 가장 유사한 객체를 검색할 수 있다. The image generator may convert the generated text summary information into image information through a text-to-image process, and retrieve object information from the converted image information to search for the most similar object.

상기 이미지 생성부는, 상기 검색된 가장 유사한 객체를 포함하는 이미지를 기 학습된 이미지 모델에 입력하고, 상기 기 학습된 이미지 모델을 이용하여 상기 검색된 가장 유사한 객체와 관련된 제1차 유사 이미지를 획득할 수 있다. The image generator may input an image including the found most similar object into a pre-trained image model, and obtain a first similar image related to the found most similar object using the pre-trained image model. .

상기 이미지 생성부는, 상기 획득된 제1 차 유사 이미지를 GAN 기반의 이미지 생성자에 입력하고, 상기 GAN 기반의 이미지 생성자를 통해 상기 획득된 제1 차 유사 이미지에 대한 픽셀 정보에 기초하여 제2차 유사 이미지를 생성할 수 있다. The image generating unit inputs the obtained first similarity image to a GAN-based image generator, and based on pixel information on the obtained first similarity image through the GAN-based image generator, second-order similarity You can create an image.

상기 이미지 생성부는, 상기 생성된 제2 차 유사 이미지를 이미지 투 텍스트(Image to Text)의 과정을 통해 상기 임베딩 벡터와의 정확도를 평가하고, 상기 평가된 정확도에 따라 상기 생성된 제2차 유사 이미지를 이미지 생성의 결과로서 제공할 수 있다. The image generator is configured to evaluate the accuracy of the generated second similarity image with the embedding vector through an image-to-text process, and the generated second similarity image according to the evaluated accuracy. can be provided as a result of image creation.

말로만 표현 가능했던 상상 속의 이미지를 직접 생성해냄으로써 이미지 생성 기술을 발전시킬 수 있다. By directly creating an imaginary image that could only be expressed in words, image creation technology can be developed.

또한, 지식 증류 기법을 통하여 텍스트 데이터로부터 실감나는 이미지를 생성할 수 있다. In addition, a realistic image can be generated from text data through a knowledge distillation technique.

또한, 텍스트 요약 및 이미지 생성의 시간을 단축하고 연산 비용을 줄임으로써, 텍스트 데이터로부터 이미지를 효율적으로 생성할 수 있다. In addition, by shortening the time of text summarization and image generation and reducing the computational cost, it is possible to efficiently generate an image from text data.

도 1은 일 실시예에 따른 이미지 생성 시스템의 구성을 설명하기 위한 블록도이다.
도 2는 일 실시예에 따른 이미지 생성 시스템에서 이미지 생성 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 이미지 생성 시스템의 개괄적인 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 이미지 생성 시스템에서 지식 증류 동작을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 이미지 생성 시스템에서 이미지 생성 동작을 설명하기 위한 도면이다.
1 is a block diagram illustrating the configuration of an image generating system according to an embodiment.
2 is a flowchart illustrating an image generating method in an image generating system according to an exemplary embodiment.
3 is a diagram for explaining an overview operation of an image generating system according to an exemplary embodiment.
4 is a diagram for explaining a knowledge distillation operation in an image generating system according to an exemplary embodiment.
5 is a diagram for describing an image generating operation in an image generating system according to an exemplary embodiment.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings.

도 1은 일 실시예에 따른 이미지 생성 시스템의 구성을 설명하기 위한 블록도이고, 도 2는 일 실시예에 따른 이미지 생성 시스템에서 이미지 생성 방법을 설명하기 위한 흐름도이다. 1 is a block diagram illustrating a configuration of an image generating system according to an embodiment, and FIG. 2 is a flowchart illustrating an image generating method in the image generating system according to an embodiment.

이미지 생성 시스템(100)의 프로세서는 텍스트 요약부(110) 및 이미지 생성부(120)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 이미지 생성 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 2의 이미지 생성 방법이 포함하는 단계들(210 내지 220)을 수행하도록 이미지 생성 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.The processor of the image generating system 100 may include a text summary unit 110 and an image generating unit 120 . These processor components may be representations of different functions performed by the processor according to control instructions provided by program code stored in the image generating system. The processor and components of the processor may control the image generating system to perform steps 210 to 220 included in the image generating method of FIG. 2 . In this case, the processor and the components of the processor may be implemented to execute instructions according to the code of the operating system included in the memory and the code of at least one program.

프로세서는 이미지 생성 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 이미지 생성 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 이미지 생성 시스템을 제어할 수 있다. 이때, 텍스트 요약부(110) 및 이미지 생성부(120)를 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(210 내지 220)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.The processor may load the program code stored in the file of the program for the image generating method into the memory. For example, when a program is executed in the image generating system, the processor may control the image generating system to load a program code from a file of the program into a memory according to the control of the operating system. At this time, each of the text summary unit 110 and the image generation unit 120 executes a command of a corresponding part of the program code loaded in the memory to execute the subsequent steps 210 to 220 with different functionalities of the processor. can be expressions.

단계(210)에서 텍스트 요약부(110)는 기 학습된 텍스트 요약 모델을 이용하여 텍스트 데이터로부터 텍스트 요약 정보를 생성할 수 있다. 텍스트 요약부(110)는 텍스트 데이터를 기 학습된 텍스트 요약 모델에 입력하고, 기 학습된 텍스트 요약 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 텍스트 데이터로부터 텍스트 요약 정보를 생성하고, 텍스트 요약의 결과로서 텍스트 임베딩을 출력할 수 있다. In operation 210 , the text summary unit 110 may generate text summary information from text data using a pre-learned text summary model. The text summary unit 110 inputs text data into a pre-learned text summary model, generates text summary information from the text data through a knowledge distillation technique using the pre-learned text summary model, and summarizes the text. You can output text embeddings as a result of

단계(220)에서 이미지 생성부(120)는 기 학습된 이미지 모델에 생성된 텍스트 요약 정보를 입력함에 따라 기 학습된 이미지 모델을 이용하여 생성된 텍스트 요약 정보에 대한 새로운 이미지를 생성할 수 있다. 이미지 생성부(120)는 기 학습된 이미지 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 지식 추출을 수행함으로써 생성된 텍스트 요약 정보로부터 이미지의 픽셀 특징 공간에서의 데이터 분포를 탐색할 수 있다. 이미지 생성부(120)는 생성된 텍스트 요약 정보를 텍스트 투 이미지(Text to Image)의 과정을 통해 이미지 정보로 변환하고, 변환된 이미지 정보로부터 객체 정보를 검색하여 가장 유사한 객체를 검색할 수 있다. 이미지 생성부(120)는 검색된 가장 유사한 객체를 포함하는 이미지를 기 학습된 이미지 모델에 입력하고, 기 학습된 이미지 모델을 이용하여 검색된 가장 유사한 객체와 관련된 제1차 유사 이미지를 획득할 수 있다. 이미지 생성부(120)는 획득된 제1 차 유사 이미지를 GAN 기반의 이미지 생성자에 입력하고, GAN 기반의 이미지 생성자를 통해 획득된 제1 차 유사 이미지에 대한 픽셀 정보에 기초하여 제2차 유사 이미지를 생성할 수 있다. 이미지 생성부(120)는 생성된 제2 차 유사 이미지를 이미지 투 텍스트(Image to Text)의 과정을 통해 임베딩 벡터와의 정확도를 평가하고, 평가된 정확도에 따라 생성된 제2차 유사 이미지를 이미지 생성의 결과로서 제공할 수 있다.In operation 220 , the image generator 120 may generate a new image for the generated text summary information using the pre-learned image model as the generated text summary information is input to the pre-trained image model. The image generator 120 may search for data distribution in a pixel feature space of an image from text summary information generated by performing knowledge extraction through a knowledge distillation technique using a pre-trained image model. The image generator 120 may convert the generated text summary information into image information through a text-to-image process and search for the most similar object by searching for object information from the converted image information. The image generator 120 may input an image including the found most similar object to the pre-trained image model, and obtain a first similar image related to the found most similar object using the pre-trained image model. The image generator 120 inputs the obtained first similar image to a GAN-based image generator, and based on pixel information on the first similar image obtained through the GAN-based image generator, a second similar image can create The image generator 120 evaluates the accuracy of the generated second similar image with an embedding vector through an image to text process, and uses the second similar image generated according to the evaluated accuracy as an image. It can be provided as a result of creation.

도 3은 일 실시예에 따른 이미지 생성 시스템의 개괄적인 동작을 설명하기 위한 도면이다. 3 is a diagram for explaining an overview operation of an image generating system according to an exemplary embodiment.

이미지 생성 시스템(100)은 텍스트 북(textbook)(301)을 기 학습된 텍스트 요약 모델을 이용하여 텍스트 요약 정보를 획득할 수 있다. 이때, 텍스트 북은 텍스트 데이터로 이루어진 책을 의미할 수 있다. 실시예에서는 백과사전이라고 가정하고 설명하기로 한다. 이외에도, 텍스트 데이터로 이루어진 책뿐만 아니라 텍스트 데이터로 이루어진 모든 콘텐츠(문서, 파일, 기사 등)에도 적용될 수 있다. 또한, 텍스트 데이터 및 이미지 데이터가 포함된 책일지라도, 텍스트 데이터 부분만을 이용할 수 있다. The image generating system 100 may obtain text summary information by using a text summary model that has already been trained on the text book 301 . In this case, the text book may mean a book made of text data. In the embodiment, it is assumed that it is an encyclopedia and will be described. In addition, it can be applied not only to books made of text data but also to all contents (documents, files, articles, etc.) made of text data. Also, even a book containing text data and image data, only a text data portion can be used.

이미지 생성 시스템(100)은 기 학습된 텍스트 요약 모델을 이용하여 텍스트 요약 정보를 획득할 수 있다. 구체적으로, 이미지 생성 시스템(100)은 텍스트 북(301)에 구성된 텍스트 데이터를 기 학습된 텍스트 요약 모델에 입력할 수 있다. 이미지 생성 시스템(100)은 기 학습된 텍스트 요약 모델을 이용하여 텍스트 데이터에 대한 텍스트 설명을 획득할 수 있다. 이때, 기 학습된 텍스트 요약 모델은 Kogpt2, kobert, koeletra 등이 사용될 수 있다. 이미지 생성 시스템(100)은 기 학습된 텍스트 요약 모델을 이용하여 지식 증류(knowledge distillation) 기법과 파인 튜닝(Fine tuning) 기법을 사용할 수 있다. 텍스트 북(301)으로부터 텍스트 요약(Text summarization)(302)이 발생될 수 있다. 텍스트 요약 기술을 크게 추출적 요약(Extractive summarization)과 추상적 요약(Abstractive summarization)으로 나뉠 수 있다. 추출적 요약 기술은 문서에서 중요한 핵심 문장 또는 단어구를 몇 개 추출하여 이들로 구성된 요약문을 만드는 방법이다. 따라서 요약의 결과로 나온 요약문의 문장이나 단어구들은 원문에 있는 문장들이다. 대표적인 알고리즘으로는 텍스트 랭크(TextRank) 알고리즘이 있다. 추상적 요약 기술은 원문에 없던 문장도 만들어서 추출하는 방식으로 추출적 요약보다 난이도가 높다. 인공신경망을 주로 사용하며 대표적인 모델이 seq2seq 가 있다. 추상적 요약을 위해서는 지도 학습 방법을 사용하기 때문에 원문과 실제 요약문의 세트가 있어야 한다. 즉, 레이블 데이터가 있어야 학습이 가능하다. 대량의 데이터 셋이 필요하므로 데이터 셋의 준비, 학습 시간 등이 실제 텍스트 요약기술을 사용하는데 난관이다.The image generating system 100 may obtain text summary information by using a pre-learned text summary model. Specifically, the image generating system 100 may input text data configured in the text book 301 into a pre-trained text summary model. The image generating system 100 may obtain a text description of the text data by using a pre-learned text summary model. In this case, as the pre-trained text summary model, Kogpt2, kobert, koeletra, etc. may be used. The image generating system 100 may use a knowledge distillation technique and a fine tuning technique using a pre-learned text summary model. A text summarization 302 may be generated from the text book 301 . Text summarization techniques can be largely divided into abstract summarization and abstract summarization. Extractive summary technology is a method of extracting several important key sentences or phrases from a document and creating a summary composed of them. Therefore, the sentences or phrases in the summary sentences resulting from the summary are the sentences in the original text. A typical algorithm is the TextRank algorithm. Abstract summary technique is more difficult than abstract summary by creating and extracting sentences that were not in the original text. Artificial neural networks are mainly used, and a representative model is seq2seq. For abstract summarization, there must be a set of original texts and actual summaries because it uses supervised learning methods. That is, learning is possible only when there is label data. Since a large data set is required, preparation of the data set and the learning time are difficult to use the actual text summarization technique.

텍스트 북(301)의 텍스트 요약(302)을 통해 텍스트 설명(Text description)(303)이 추출될 수 있다. 다시 말해서, 텍스트 요약과 관련된 텍스트 설명이 추출될 수 있다. 이미지 생성 시스템(100)은 텍스트 요약(302)의 결과로 텍스트 요약 정보를 획득할 수 있다. 이때, 텍스트 요약(302)의 결과로 텍스트 임베딩(Text Embedding)(304)이 출력으로 리턴될 수 있다. 이미지 생성 시스템(100)은 텍스트 요약 정보를 이용하여 이미지 생성을 위한 텍스트 투 이미지 합성(Text to Image Synthesis)(305)을 수행할 수 있다. 다시 말해서, 이미지 생성을 위하여 텍스트 임베딩(304)을 입력 데이터로 입력받을 수 있다. 이미지 생성 시스템(100)은 기 학습된 이미지 모델을 이용하여 지식 증류 기법을 수행할 수 있다. 이때, 다른 알고리즘은 직접 이미지를 생성하기 위해 이미지와 라벨정보 기반으로 학습시키나, 실시예에서는 이미지 데이터를 입력하지 않고 미리 학습된 이미지 모델을 통해 이미지의 픽셀 특징 공간(feature space)에서의 데이터 분포를 찾아낼 수 있다. 이미지 생성 시스템(100)은 텍스트 임베딩을 기 학습된 이미지 모델에 입력할 수 있다. 이미지 생성 시스템(100)은 기 학습된 이미지 모델로부터 텍스트 임베딩에 대한 인공 이미지(306)을 획득할 수 있다.A text description 303 may be extracted through the text summary 302 of the text book 301 . In other words, text descriptions related to text summaries may be extracted. The image generation system 100 may obtain text summary information as a result of the text summary 302 . At this time, as a result of the text summary 302 , a text embedding 304 may be returned as an output. The image generating system 100 may perform Text to Image Synthesis 305 for generating an image by using the text summary information. In other words, the text embedding 304 may be input as input data to generate an image. The image generating system 100 may perform a knowledge distillation technique using a pre-learned image model. At this time, other algorithms are trained based on the image and label information to directly generate the image, but in the embodiment, the data distribution in the pixel feature space of the image is obtained through a pre-trained image model without inputting image data. can be found The image generating system 100 may input text embeddings into a pre-trained image model. The image generating system 100 may obtain an artificial image 306 for text embedding from a pre-trained image model.

상세하게는, 텍스트 임베딩(텍스트 요약 정보)는 멀티 모달 매핑 모듈(Multi Modal Mapping Module)로 전달되어 텍스트 투 이미지 정보로 변환될 수 있다. 멀티 모달 매핑 모듈 역시 기 학습된 모델(텍스트 투 이미지 변환을 위한 모델)을 활용하여 러프한 이미지 정보로 변환될 수 있고, 변환된 이미지 정보는 기 학습된 이미지 모델에서의 가장 유사한 이미지를 찾아낼 수 있다. 예를 들면, "갈색 부리를 가진 작은 흰새"라고 하면, 가장 유사한 "백조"나, "학" 등의 여러 이미지 중 가장 유사한 이미지를 찾아내고, 찾은 이미지 픽셀 정보에서 "갈색 부리"에 해당하는 이미지를 GAN 기반의 이미지 생성자를 이용하여 가동된 좀 더 표현에 가까운 이미지(새로운 이미지)를 생성해낼 수 있다. In detail, text embedding (text summary information) may be transmitted to a multi-modal mapping module and converted into text-to-image information. The multi-modal mapping module can also be converted into rough image information by using a pre-trained model (model for text-to-image conversion), and the converted image information can find the most similar image in the pre-trained image model. have. For example, if we say "a small white bird with a brown beak", we find the most similar image among several images such as "swan" and "crane", and the image corresponding to "brown beak" in the image pixel information found. It is possible to generate an image (new image) that is more expressive by using a GAN-based image generator.

생성된 이미지 정보는 멀티 모달 매핑 모듈에서 다시 이미지 투 텍스트로 변환하여 원래의 임베딩 벡터 정보와의 정확도를 체크하여 얼마나 정확한 이미지가 생성되었는지 평가될 수 있다. 평가 후, 목표 수치에 도달하면 이미지 생성을 종료하고, 목표 수치에 도달하지 못하면 이미지 생성 과정을 반복할 수 있다. The generated image information is converted back to image-to-text in the multi-modal mapping module, and accuracy with the original embedding vector information is checked to evaluate how accurate the image is generated. After the evaluation, if the target value is reached, image generation may be terminated, and if the target value is not reached, the image generation process may be repeated.

일례로, 이미지 생성 시스템은 텍스트북을 학습하여 새의 이미지를 요약하고, 요약된 새의 이미지를 전달하여 기존에 학습된 모델로부터 일반적인 새의 모습을 추출하고, 요약된 문장의 내용대로 새의 이미지를 변경하여 이미지 데이터를 생성할 수 있다. 다른 예로서, 이미지 생성 시스템은 텍스트북 학습을 통해 객체와 어울리는 색을 추출하고, 이미지 중 어울리는 색상으로 객체를 자동으로 생성할 수 있다. 이미지 생성 시스템은 흰색과 빨간색이 어울린다면 두 가지 색상이 어우러진 이미지를 자동으로 생성할 수 있다. As an example, the image generation system learns the text book to summarize the image of the bird, delivers the summarized image of the bird, and extracts the general bird appearance from the previously learned model, and the image of the bird according to the content of the summarized sentence can be changed to create image data. As another example, the image generating system may extract a color matching an object through text book learning, and automatically generate an object with a color matching the image. The image generation system can automatically create an image that combines two colors if white and red go well together.

이전에 널리 사용된 적대적 훈련 패러다임 대신 실시예에서 제안한 접근법은 피드 포워드 구조 및 지식 증류 학습을 사용하고, 멀티 모달 모듈의 도움을 받기 때문에 최적화 및 매개 변수 조정 등이 현재의 다른 GAN 기반의 이미지 생성 방법보다 더 안정적이다. Instead of the previously widely used adversarial training paradigm, the approach proposed in Examples uses feed-forward structure and knowledge distillation learning, and with the help of multi-modal modules, optimization and parameter adjustment, etc. more stable than

실시예에서는 멀티 모달에서의 십자형 평가(Cross Evaluation) 방식을 통해 텍스트 투 이미지(Text to Image) 및 이미지 투 텍스트(Image to Text) 시맨틱 일관성 문제를 해결할 수 있다. In the embodiment, the text-to-image and image-to-text semantic consistency problems can be solved through the cross evaluation method in multi-modal.

실시예에서는 시각적 품질 문제 또한 이미 가장 유사한 객체를 증류하였기 때문에 이미지 자체의 블러(Blur)한 문제는 해소할 수 있으며, GAN 알고리즘의 성능 개선으로 해당 문제를 극복할 수 있다.In the embodiment, since the visual quality problem has already distilled the most similar object, the blur problem of the image itself can be solved, and the problem can be overcome by improving the performance of the GAN algorithm.

실시예에서 제시하는 방법론은 기 학습된 선생 모델(Pretrained Teacher model)로부터 지식을 증류하는 방법을 사용하기 때문에 학습의 난이도 부분에서 낮은 레벨(low level)의 학습 방법보다는 시간 및 속도 측면에서 우월하다.Since the methodology presented in the embodiment uses a method of distilling knowledge from a pretrained teacher model, it is superior to a low level learning method in terms of time and speed in terms of difficulty in learning.

도 4는 일 실시예에 따른 이미지 생성 시스템에서 지식 증류 동작을 설명하기 위한 도면이다. 4 is a diagram for explaining a knowledge distillation operation in an image generating system according to an exemplary embodiment.

이미지 생성 시스템은 지식 증류 기법을 이용하여 텍스트 요약(410) 및 이미지 생성(420) 동작을 수행할 수 있다. 텍스트 요약(410) 동작을 위하여 기 학습된 텍스트 요약 모델(선생 모델), 학습 모델이 구성될 수 있다. The image generation system may perform the text summarization 410 and image generation 420 operations using a knowledge distillation technique. For the operation of the text summary 410 , a pre-trained text summary model (a teacher model) and a learning model may be configured.

지식 증류(Knowledge Distillation)란 미리 학습된 네트워크(Teacher network)의 지식을 실제 사용하고자 하는 작은 네트워크(Student network)에게 전달하는 것이다. 딥러닝 모델은 다수 개의 파라미터 수가 존재하며, 연산량이 많으면 특징(feature) 추출이 잘 수행되므로 분류나 회귀문제에서의 성능이 좋아진다. 딥러닝이 단순히 목적 성능이 좋은 모델이 좋은 모델이라고 말할 수 있는 기술 수준을 넘어서서 작은 모델로 더 큰 모델만큼의 성능을 얻을 수 있다면 컴퓨팅 리소스(Computing resource), 에너지(Energe), 메모리(memory) 측면에서 더 효율적이다. 지식 증류방법은 작은 네트워크로도 큰 네트워크와 비슷한 성능을 낼 수 있도록 학습 과정에서 큰 네트워크의 지식을 작은 네트워크에 전달하여 학생 네트워크(student network)의 성능을 높이는데 목적을 두고 있다.Knowledge distillation is to transfer the knowledge of a previously learned network (Teacher network) to a small network (Student network) that is actually used. A deep learning model has a large number of parameters, and if the amount of computation is large, feature extraction is performed well, so the performance in classification or regression problems is improved. If deep learning can achieve the same performance as a larger model with a small model beyond the technical level where a model with good performance is simply a good model, computing resource, energy, and memory more efficient in The knowledge distillation method aims to improve the performance of a student network by transferring the knowledge of a large network to a small network during the learning process so that even a small network can achieve similar performance to a large network.

이미지 생성 시스템은 기 학습된 텍스트 요약 모델을 이용하여 텍스트 데이터로부터 지식 증류 기법 기반의 텍스트 요약 정보를 획득할 수 있다. 구체적으로, 텍스트 요약 모델은 데이터 세트를 이용하여 학습된 모델일 수 있다. 이때, 데이터 세트는 텍스트 요약을 위한 데이터들을 의미할 수 있다. 이러한 기 학습된 텍스트 요약 모델은 선생 모델(Teacher Model)에 해당하고, 학생 모델(Student Model)은 추출된 지식 증류 기법으로부터 텍스트 요약 정보를 생성할 수 있다. The image generating system may acquire text summary information based on a knowledge distillation technique from text data using a pre-learned text summary model. Specifically, the text summary model may be a model trained using a data set. In this case, the data set may mean data for text summary. This pre-learned text summary model corresponds to a teacher model, and the student model may generate text summary information from the extracted knowledge distillation technique.

이미지 생성 시스템은 기 학습된 이미지 모델을 이용하여 생성된 텍스트 요약 정보로부터 새로운 이미지를 생성할 수 있다. 구체적으로, 이미지 모델은 데이터 세트를 이용하여 학습된 모델일 수 있다. 이때, 데이터 세트는 이미지 생성을 위한 데이터들을 포함할 수 있다. 이러한 기 학습된 이미지 모델은 선생 모델(Teacher Model)에 해당한다. 기 학습된 이미지 모델(예를 들면, CoCo/Imagenet 등의 오픈 데이터로부터 학습된 모델)로부터 지식 증류 기법을 수행하여 학생 모델(Student Model)이 동작하고, 텍스트 요약 정보와 증류된 이미지로부터 새로운 이미지를 생성할 수 있다. 예를 들면, 새로운 이미지는 데이터베이스에 저장된 텍스트 요약 정보에 대응하여 추출된 이미지일 수 있고, 또는, 텍스트 요약 정보와 관련하여 수정, 가공(특정 처리/변환) 및 편집이 수행된 이미지일 수 있다. The image generating system may generate a new image from the generated text summary information using the pre-trained image model. Specifically, the image model may be a model trained using a data set. In this case, the data set may include data for image generation. This pre-learned image model corresponds to a teacher model. By performing a knowledge distillation technique from a pre-trained image model (for example, a model learned from open data such as CoCo/Imagenet), the Student Model operates, and a new image is generated from the text summary information and the distilled image. can create For example, the new image may be an image extracted in response to text summary information stored in a database, or may be an image on which correction, processing (specific processing/conversion), and editing are performed in relation to text summary information.

도 5는 일 실시예에 따른 이미지 생성 시스템에서 이미지 생성 동작을 설명하기 위한 도면이다. 5 is a diagram for describing an image generating operation in an image generating system according to an exemplary embodiment.

이미지 생성 시스템은 텍스트 요약 정보를 입력받을 수 있다. 이때, 텍스트 요약 정보는 텍스트 임베딩(임베딩 벡터) 형태일 수 있다. 이미지 생성 시스템은 멀티 모달 매핑 모듈로 전달된 임베딩 벡터를 입력으로 받아 멀티 모달 매핑 모듈(520)로부터 텍스트 투 이미지(Text to Image) 모델을 통과시킬 수 있다. 텍스트 투 이미지 모델은 멀티 모달 매핑 모듈(520)에서 텍스트 데이터를 이미지 데이터로 변환하는 모델일 수 있다. The image generating system may receive text summary information. In this case, the text summary information may be in the form of text embedding (embedding vector). The image generating system may receive the embedding vector transmitted to the multi-modal mapping module as an input and pass the text to image model from the multi-modal mapping module 520 . The text-to-image model may be a model in which the multi-modal mapping module 520 converts text data into image data.

이미지 생성 시스템은 기본 이미지(Basis Image)를 기 학습된 이미지 모델로부터 획득하기 위하여 가장 유사한 객체(530)를 검색하여 가장 유사한 객체를 획득할 수 있다. 기본 이미지란, 텍스트 투 이미지의 과정을 통하여 텍스트 데이터로부터 변환된 이미지를 의미할 수 있다. 예를 들면, 이미지 생성 시스템은 텍스트 투 이미지를 통해 변환된 이미지로부터 텍스트 요약 정보와 유사한 객체를 검색할 수 있다. 또는, 이미지 생성 시스템은 텍스트 투 이미지를 통해 검색된 가장 유사한 객체를 포함하는 이미지를 획득할 수 있다. The image generating system may obtain the most similar object by searching for the most similar object 530 in order to obtain a basic image from the pre-trained image model. The basic image may mean an image converted from text data through a text-to-image process. For example, the image generating system may retrieve an object similar to text summary information from an image converted through text-to-image. Alternatively, the image generating system may acquire an image including the most similar object found through text-to-image.

이미지 생성 시스템은 검색된 가장 유사한 객체를 포함하는 이미지를 기 학습된 이미지 모델(540)에 입력하고, 기 학습된 이미지 모델(540)을 이용하여 검색된 가장 유사한 객체와 관련된 제1차 유사 이미지를 획득할 수 있다. 이때, 검색된 가장 유사한 객체를 기 학습된 이미지 모델에 입력할 수 있고, 또는 검색된 가장 유사한 객체를 포함하는 이미지를 기 학습된 모델에 입력함으로써 지식 증류를 수행할 수 있다. The image generating system inputs an image including the searched most similar object to the pre-trained image model 540, and uses the pre-trained image model 540 to obtain a first similar image related to the most similar object found. can In this case, the searched most similar object may be input to the pre-trained image model, or knowledge distillation may be performed by inputting an image including the searched most similar object to the pre-trained model.

이미지 생성 시스템은 획득된 가장 유사한 객체를 포함하는 이미지를 GAN 기반의 이미지 생성자(510)에 통과시켜 목적 이미지를 획득할 수 있다. 이때, 목적 이미지는 텍스트 요약 정보와 관련하여 최종적으로 생성하기 위한 이미지를 의미할 수 있다. GAN(Generative Adversarial Network)은 적대적 학습(Adversarial Network)에서는 분류 모델을 먼저 학습한다. 그 후 생성 모델(Generative Network)을 학습시키는 과정을 서로 주고받으며 반복한다. 분류 모델의 학습은 두 단계로 이루어지는데, 하나는 진짜 데이터를 입력해서 인공신경망이 해당 데이터를 진짜로 분류하도록 학습시키는 과정이고, 두 번째는 첫 번째와는 반대로 생성 모델에서 생성한 가짜 데이터를 입력해서 해당 데이터를 가짜로 분류하도록 학습하는 과정이다. 이 과정을 통해 분류 모델은 진짜 데이터를 진짜로, 가짜 데이터를 가짜로 분류할 수 있게 된다. 분류 모델을 학습시킨 이후 학습된 분류 모델을 속이는 방향으로 생성 모델을 학습시킨다. 생성 모델에서 만들어낸 가짜 데이터를 판별 모델에 입력하고, 가짜 데이터를 진짜라고 분류할 만큼 진짜 데이터와 유사한 데이터를 만들어내도록 생성 모델을 학습한다. GAN 학습을 위해서는 대량의 데이터가 필요하며, 분류로 학습한 결과를 이용하여 이미지를 생성한다. 이미지 생성 시스템은 획득된 제1 차 유사 이미지를 GAN 기반의 이미지 생성자(510)에 입력하고, GAN 기반의 이미지 생성자(510)를 통해 획득된 제1 차 유사 이미지에 대한 픽셀 정보에 기초하여 제2차 유사 이미지를 생성할 수 있다. The image generating system may acquire the target image by passing the obtained image including the most similar object to the GAN-based image generator 510 . In this case, the target image may mean an image to be finally generated in relation to the text summary information. GAN (Generative Adversarial Network) trains the classification model first in Adversarial Network. After that, the process of learning the generative network is repeated by giving and receiving each other. The training of the classification model consists of two steps: one is the process of inputting real data and training the artificial neural network to classify the data as real, and the second is, contrary to the first, by inputting fake data generated by the generative model. This is the process of learning to classify the data as fake. Through this process, the classification model can classify real data as real and fake data as fake. After training the classification model, the generative model is trained in a way that deceives the learned classification model. The fake data created by the generative model is input into the discriminant model, and the generative model is trained to generate data similar to real data enough to classify the fake data as real. A large amount of data is required for GAN learning, and an image is generated using the results learned by classification. The image generating system inputs the obtained first-order similar image to the GAN-based image generator 510, and based on the pixel information for the first-order similar image obtained through the GAN-based image generator 510, the second A car-like image can be created.

이미지 생성 시스템은 목적 이미지를 다시 멀티 모달 매핑 모듈(520)에서 이미지 투 텍스트 모델을 통과시킬 수 있다. 이미지 투 텍스트 모델은 멀티 모달 매핑 모듈(520)에서 이미지 데이터를 텍스트 데이터로 변환하는 모델일 수 있다. 다시 말해서, 목적 이미지를 이미지에서 텍스트 형태로 변환할 수 있다. 이미지 생성 시스템은 텍스트 데이터로 변환된 목적 이미지와 임베딩 벡터와의 정확도를 평가할 수 있다. 이미지 생성 시스템은 생성된 제2 차 유사 이미지를 이미지 투 텍스트의 과정을 통해 임베딩 벡터와의 정확도를 평가하고, 평가된 정확도에 따라 생성된 제2차 유사 이미지를 이미지 생성의 결과로서 제공할 수 있다. The image generation system may pass the target image back through the image-to-text model in the multi-modal mapping module 520 . The image-to-text model may be a model in which the multi-modal mapping module 520 converts image data into text data. In other words, the target image can be converted from an image to a text form. The image generating system may evaluate the accuracy between the target image converted into text data and the embedding vector. The image generating system may evaluate the accuracy of the generated second-order similar image with the embedding vector through an image-to-text process, and provide the generated second-order similar image according to the evaluated accuracy as a result of image generation. .

이미지 생성 시스템은 이미지에서 텍스트 형태로 변환된 텍스트 데이터와 임베딩 벡터와의 정확도를 평가(550)할 수 있다. 예를 들면, 이미지 생성 시스템은 정확도가 기 설정된 기준값(기준 점수) 이상일 경우, 프로세스를 종료하고, 정확도가 기 설정된 기준값 이하일 경우, 도 5의 이미지 생성 프로세스를 반복하여 이미지를 생성할 수 있다. 또는, 이미지 생성 시스템은 이미지에서 텍스트 형태로 변환된 텍스트 데이터와 임베딩 벡터와의 차이를 계산할 수 있고, 계산된 차이값이 기 설정된 기준값 이상일 경우, 프로세스를 종료하고, 계산된 차이값이 기 설정된 기준값 이하일 경우, 도 5의 이미지 생성 프로세스를 반복하여 이미지를 생성할 수 있다.The image generating system may evaluate ( 550 ) accuracy between the text data converted from the image to the text form and the embedding vector. For example, when the accuracy is greater than or equal to a preset reference value (reference score), the image generating system may terminate the process, and if the accuracy is less than or equal to the preset reference value, repeat the image creation process of FIG. 5 to generate an image. Alternatively, the image generating system may calculate the difference between the text data converted from the image to the text form and the embedding vector, and when the calculated difference value is greater than or equal to a preset reference value, terminate the process, and the calculated difference value is a preset reference value In the following cases, the image may be generated by repeating the image generation process of FIG. 5 .

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The device described above may be implemented as a hardware component, a software component, and/or a combination of the hardware component and the software component. For example, devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA). , a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions, may be implemented using one or more general purpose or special purpose computers. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For convenience of understanding, although one processing device is sometimes described as being used, one of ordinary skill in the art will recognize that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that may include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device. The software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or device, to be interpreted by or to provide instructions or data to the processing device. may be embodied in The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited embodiments and drawings, various modifications and variations are possible by those skilled in the art from the above description. For example, the described techniques are performed in a different order than the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (14)

이미지 생성 방법에 있어서,
기 학습된 텍스트 요약 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 텍스트 데이터로부터 텍스트 요약 정보를 생성하는 단계; 및
기 학습된 이미지 모델에 상기 생성된 텍스트 요약 정보를 입력함에 따라 기 학습된 이미지 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 상기 생성된 텍스트 요약 정보에 대한 새로운 이미지를 생성하는 단계
를 포함하고,
상기 이미지를 생성하는 단계는,
상기 생성된 이미지 정보로부터 객체 정보를 검색하여 가장 유사한 객체를 검색하고, 상기 검색된 가장 유사한 객체를 포함하는 이미지를 기 학습된 이미지 모델에 입력하고, 상기 기 학습된 이미지 모델을 이용하여 상기 검색된 가장 유사한 객체와 관련된 제1차 유사 이미지를 획득하고, 상기 획득된 제1 차 유사 이미지를 GAN 기반의 이미지 생성자에 입력하고, 상기 GAN 기반의 이미지 생성자를 통해 상기 획득된 제1 차 유사 이미지에 대한 픽셀 정보에 기초하여 제2차 유사 이미지를 생성하고, 상기 생성된 제2 차 유사 이미지를 이미지 투 텍스트(Image to Text)의 과정을 통해 임베딩 벡터와의 정확도를 평가하고, 상기 평가된 정확도에 따라 상기 생성된 제2차 유사 이미지를 이미지 생성의 결과로서 제공하는 단계
를 포함하는 이미지 생성 방법.
In the image generation method,
generating text summary information from text data through a knowledge distillation technique using a pre-learned text summary model; and
Generating a new image for the generated text summary information through a knowledge distillation technique using the pre-learned image model as the generated text summary information is input into the pre-trained image model
including,
Creating the image includes:
Searching for object information from the generated image information to search for the most similar object, inputting an image including the searched most similar object into a pre-trained image model, and using the pre-trained image model to search for the most similar object Acquire a first similar image related to an object, input the obtained first similar image to a GAN-based image generator, and pixel information on the obtained first similar image through the GAN-based image generator A second similar image is generated based on providing a second-order similar image as a result of image creation;
An image creation method comprising
제1항에 있어서,
상기 텍스트 요약 정보를 생성하는 단계는,
상기 텍스트 데이터를 기 학습된 텍스트 요약 모델에 입력하고, 기 학습된 텍스트 요약 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 상기 텍스트 데이터로부터 텍스트 요약 정보를 생성하고, 텍스트 요약의 결과로서 텍스트 임베딩을 출력하는 단계
를 포함하는 이미지 생성 방법.
According to claim 1,
The step of generating the text summary information includes:
Input the text data to a pre-trained text summary model, generate text summary information from the text data through a knowledge distillation technique using the pre-trained text summary model, and embed text as a result of text summary step to output
An image creation method comprising
제1항에 있어서,
상기 이미지를 생성하는 단계는,
기 학습된 이미지 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 지식 추출을 수행함으로써 상기 생성된 텍스트 요약 정보로부터 이미지의 픽셀 특징 공간에서의 데이터 분포를 탐색하는 단계
를 포함하는 이미지 생성 방법.
According to claim 1,
Creating the image includes:
Exploring data distribution in a pixel feature space of an image from the generated text summary information by performing knowledge extraction through a knowledge distillation technique using a pre-learned image model
An image creation method comprising
제3항에 있어서,
상기 이미지를 생성하는 단계는,
상기 생성된 텍스트 요약 정보를 텍스트 투 이미지(Text to Image)의 과정을 통해 이미지 정보로 변환하는 단계
를 포함하는 이미지 생성 방법.
4. The method of claim 3,
Creating the image includes:
converting the generated text summary information into image information through a text-to-image process
An image creation method comprising
삭제delete 삭제delete 삭제delete 이미지 생성 시스템에 있어서,
기 학습된 텍스트 요약 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 텍스트 데이터로부터 텍스트 요약 정보를 생성하는 텍스트 요약부; 및
기 학습된 이미지 모델에 상기 생성된 텍스트 요약 정보를 입력함에 따라 기 학습된 이미지 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 상기 생성된 텍스트 요약 정보에 대한 새로운 이미지를 생성하는 이미지 생성부
를 포함하고,
상기 이미지 생성부는,
상기 생성된 이미지 정보로부터 객체 정보를 검색하여 가장 유사한 객체를 검색하고, 상기 검색된 가장 유사한 객체를 포함하는 이미지를 기 학습된 이미지 모델에 입력하고, 상기 기 학습된 이미지 모델을 이용하여 상기 검색된 가장 유사한 객체와 관련된 제1차 유사 이미지를 획득하고, 상기 획득된 제1 차 유사 이미지를 GAN 기반의 이미지 생성자에 입력하고, 상기 GAN 기반의 이미지 생성자를 통해 상기 획득된 제1 차 유사 이미지에 대한 픽셀 정보에 기초하여 제2차 유사 이미지를 생성하고, 상기 생성된 제2 차 유사 이미지를 이미지 투 텍스트(Image to Text)의 과정을 통해 임베딩 벡터와의 정확도를 평가하고, 상기 평가된 정확도에 따라 상기 생성된 제2차 유사 이미지를 이미지 생성의 결과로서 제공하는
이미지 생성 시스템.
An image generating system comprising:
a text summary unit generating text summary information from text data through a knowledge distillation technique using a pre-learned text summary model; and
An image generating unit that generates a new image for the generated text summary information through a knowledge distillation technique using the pre-learned image model as the generated text summary information is input to the pre-trained image model
including,
The image generating unit,
Searching for object information from the generated image information to search for the most similar object, inputting an image including the searched most similar object into a pre-trained image model, and using the pre-trained image model to search for the most similar object Acquire a first similar image related to an object, input the obtained first similar image to a GAN-based image generator, and pixel information on the obtained first similar image through the GAN-based image generator A second similar image is generated based on to provide a second-order similar image as a result of image creation.
image creation system.
제8항에 있어서,
상기 텍스트 요약부는,
상기 텍스트 데이터를 기 학습된 텍스트 요약 모델에 입력하고, 기 학습된 텍스트 요약 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 상기 텍스트 데이터로부터 상기 텍스트 요약 정보를 생성하고, 텍스트 요약의 결과로서 텍스트 임베딩을 출력하는
것을 특징으로 하는 이미지 생성 시스템.
9. The method of claim 8,
The text summary section,
The text data is input to a pre-trained text summary model, and the text summary information is generated from the text data through a knowledge distillation technique using the pre-learned text summary model, and as a result of text summary, the text print the embedding
An image generating system, characterized in that.
제8항에 있어서,
상기 이미지 생성부는,
기 학습된 이미지 모델을 이용하여 지식 증류(Knowledge Distillation) 기법을 통해 지식 추출을 수행함으로써 상기 생성된 텍스트 요약 정보로부터 이미지의 픽셀 특징 공간에서의 데이터 분포를 탐색하는
것을 특징으로 하는 이미지 생성 시스템.
9. The method of claim 8,
The image generating unit,
It is a method of searching for data distribution in the pixel feature space of an image from the generated text summary information by performing knowledge extraction through a knowledge distillation technique using a pre-learned image model.
An image generating system, characterized in that.
제10항에 있어서,
상기 이미지 생성부는,
상기 생성된 텍스트 요약 정보를 텍스트 투 이미지(Text to Image)의 과정을 통해 이미지 정보로 변환하는
것을 특징으로 하는 이미지 생성 시스템.
11. The method of claim 10,
The image generating unit,
Converting the generated text summary information into image information through a text-to-image process
An image generating system, characterized in that.
삭제delete 삭제delete 삭제delete
KR1020200144691A 2020-11-02 2020-11-02 Image generation technique using multi-modal mapping information on knowledge distillation KR102445932B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200144691A KR102445932B1 (en) 2020-11-02 2020-11-02 Image generation technique using multi-modal mapping information on knowledge distillation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200144691A KR102445932B1 (en) 2020-11-02 2020-11-02 Image generation technique using multi-modal mapping information on knowledge distillation

Publications (2)

Publication Number Publication Date
KR20220059288A KR20220059288A (en) 2022-05-10
KR102445932B1 true KR102445932B1 (en) 2022-09-21

Family

ID=81591662

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200144691A KR102445932B1 (en) 2020-11-02 2020-11-02 Image generation technique using multi-modal mapping information on knowledge distillation

Country Status (1)

Country Link
KR (1) KR102445932B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102650764B1 (en) * 2022-12-13 2024-03-22 한국기술교육대학교 산학협력단 Imagie super-resolution method and system using text
JP7397540B1 (en) * 2023-03-20 2023-12-13 株式会社Vaiable Information processing device, method, and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097569A1 (en) 2018-09-21 2020-03-26 International Business Machines Corporation Cognitive adaptive real-time pictorial summary scenes

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102081229B1 (en) * 2013-06-24 2020-02-26 한국전자통신연구원 Apparatus and method for outputting image according to text input in real time
KR101754473B1 (en) * 2015-07-01 2017-07-05 네이버 주식회사 Method and system for automatically summarizing documents to images and providing the image-based contents

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097569A1 (en) 2018-09-21 2020-03-26 International Business Machines Corporation Cognitive adaptive real-time pictorial summary scenes

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hongchen et al., "KT-GAN: Knowledge-Transfer Generative Adversarial Network for Text-to-Image Synthesis", JOURNAL OF LATEX CLASS FILES, Vol.14, NO. 8(2015.08.08.)*
Mingkuan et al., "Ckd: Cross-task knowledge distillation for text-to-image synthesis.", IEEE Transactions on Multimedia 22.8 (2019)*
Tingting et al., "MirrorGAN: Learning Text-to-image Generation by Redescription", arXiv:1903.05854v1 [cs.CL](2019.03.14.)*

Also Published As

Publication number Publication date
KR20220059288A (en) 2022-05-10

Similar Documents

Publication Publication Date Title
CN108804530B (en) Subtitling areas of an image
Liang et al. Cpgan: Content-parsing generative adversarial networks for text-to-image synthesis
US11250252B2 (en) Simulated handwriting image generator
WO2018207723A1 (en) Abstract generation device, abstract generation method, and computer program
KR20200023266A (en) Online progressive real-time learning to tag and label data streams for deep neural networks and neural network applications
US11238312B2 (en) Automatically generating labeled synthetic documents
CN111160343A (en) Off-line mathematical formula symbol identification method based on Self-Attention
KR102445932B1 (en) Image generation technique using multi-modal mapping information on knowledge distillation
CN108154156B (en) Image set classification method and device based on neural topic model
CN111695349A (en) Text matching method and text matching system
US11615247B1 (en) Labeling method and apparatus for named entity recognition of legal instrument
Fried et al. Cross-modal Sound Mapping Using Deep Learning.
Droettboom et al. Using the Gamera framework for the recognition of cultural heritage materials
Kaddoura A Primer on Generative Adversarial Networks
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds
CN112233054A (en) Human-object interaction image generation method based on relation triple
CN113129399A (en) Pattern generation
KR20200112191A (en) System and method for generating 3d object by mapping 3d texture to 2d object in video automatically
Rever Computer Vision Projects with OpenCV and Python 3: Six end-to-end projects built using machine learning with OpenCV, Python, and TensorFlow
US11995394B1 (en) Language-guided document editing
KR102515149B1 (en) Graph converting system and method for understanding natural language
US20230305863A1 (en) Self-Supervised System for Learning a User Interface Language
WO2023166746A1 (en) Summary generation device, summary model learning device, summary generation method, summary model learning method, and program
CN117669493A (en) Intelligent image-text typesetting method and system based on significance detection
Singh et al. HGAN: Editable Visual Generation from Hindi Descriptions

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right