KR102279772B1 - Method and Apparatus for Generating Videos with The Arrow of Time - Google Patents

Method and Apparatus for Generating Videos with The Arrow of Time Download PDF

Info

Publication number
KR102279772B1
KR102279772B1 KR1020200010870A KR20200010870A KR102279772B1 KR 102279772 B1 KR102279772 B1 KR 102279772B1 KR 1020200010870 A KR1020200010870 A KR 1020200010870A KR 20200010870 A KR20200010870 A KR 20200010870A KR 102279772 B1 KR102279772 B1 KR 102279772B1
Authority
KR
South Korea
Prior art keywords
image data
image
virtual image
real
reverse
Prior art date
Application number
KR1020200010870A
Other languages
Korean (ko)
Inventor
변혜란
홍기범
김호성
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020200010870A priority Critical patent/KR102279772B1/en
Application granted granted Critical
Publication of KR102279772B1 publication Critical patent/KR102279772B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

Disclosed are an image generation method considering time characteristics and an apparatus therefor. An image generation learning method considering time characteristics in accordance with an embodiment of the present invention comprises: a vector acquisition step of acquiring a latent vector based on a predetermined input value; a generation processing step of generating virtual image data for a virtual image by inputting the latent vector; an image acquisition step of acquiring real image data for a real image; a conversion step of inverting temporal characteristics of each of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data; and a discrimination processing step of comparing at least two data among the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data, and the processing classification for each of image authenticity and moving direction of the image so that image generation is performed.

Description

시간의 특성을 고려한 영상 생성 방법 및 그를 위한 장치{Method and Apparatus for Generating Videos with The Arrow of Time}A method for generating an image considering the characteristics of time and an apparatus therefor {Method and Apparatus for Generating Videos with The Arrow of Time}

본 발명은 시간의 특성을 고려하여 영상을 생성하기 위한 방법 및 그를 위한 장치에 관한 것이다. The present invention relates to a method for generating an image in consideration of the characteristic of time and an apparatus therefor.

이 부분에 기술된 내용은 단순히 본 발명의 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The content described in this section merely provides background information on the embodiments of the present invention and does not constitute the prior art.

기계학습(machine learning)은 지도학습(supervised learning), 비지도 학습(unsupervised learning) 및 강화학습(reinforcement learning) 등으로 나누어 진다. 비지도 학습은 지도학습과는 달리 목표값이 주어지지 않는 자료를 학습하여 차원 축소, 군집화, 특징추출 등의 작업을 주로 하는데 오토인코더(autoencoder), GAN(generative adversarial networks), RBM(restricted Boltzmann machine) 등이 있다. Machine learning is divided into supervised learning, unsupervised learning, and reinforcement learning. Unlike supervised learning, unsupervised learning learns data that is not given a target value and mainly performs tasks such as dimensionality reduction, clustering, and feature extraction. Autoencoder, GAN (generative adversarial networks), RBM (restricted Boltzmann machine) ), etc.

딥러닝 분야에서는 지도학습이 많은 부분을 차지했지만, 목표값(target)을 구해야 하는 이유로 활동에 한계가 있었다. 반면, 비지도학습은 Goodfellow(2014)의 GAN을 중심으로 넓은 활용도를 보이며 현재까지 영상(비디오), 이미지와 음성 분야를 비롯한 다양한 분야에서 접목되고 있다. Supervised learning took up a large part in the deep learning field, but there was a limit to its activities due to the need to obtain a target. On the other hand, unsupervised learning has been widely used centered on GAN of Goodfellow (2014), and has been applied in various fields including video (video), image and audio fields until now.

GAN은 생성자(generator)와 감별자(discriminator)를 대립하여 학습하는 신경망이다. 생성자는 실제 자료와 같은 자료를 만들기 위해 노력하고, 감별자는 실제 자료와 생성자료를 구분하기 위해 노력하여 최종적으로 생성자가 실제 자료와 같은 자료를 만드는 것이 GAN의 목표다. 초기 GAN은 학습의 불안정과 모드 붕괴(mode-collapse) 등의 문제점을 수반하였다. 이를 개선하는 많은 파생 GAN 모형들이 개발되었으며, 인셉션 모델(Inception model)을 이용한 인셉션 스코어(IS: Inception score)와 프레쳇 인셉션 거리(FID: Frechet Inception distance) 등이 개발되어 GAN의 성능을 평가할 수 있게 되었다. GAN is a neural network that learns by opposing generator and discriminator. The goal of GAN is that the generator makes an effort to create data like the real data, and the discriminator tries to distinguish the real data from the generated data, and finally, the generator makes the data like the real data. Early GANs were accompanied by problems such as instability of learning and mode-collapse. Many derived GAN models to improve this have been developed, and the Inception score (IS) and Frechet Inception distance (FID) using the Inception model have been developed to improve the performance of the GAN. could be evaluated.

기존의 영상(비디오) 생성에 대한 연구들은 영상의 시간적 특성에 대해 크게 고려하지 않은 채 GAN의 학습 방식만을 토대로 영상 생성 연구를 진행하였다. 영상(비디오)은 시간을 구별하는 차원을 가지고 있기 때문에, 영상에 대한 GAN 학습은 이미지에 대한 GAN 학습보다 정교하다. 시간을 고려한 전용 아키텍처를 설계하는 방법이 연구되고 있으나, 생성된 영상은 여전히 실제 영상과 구별을 할 수 없다. Existing studies on image (video) generation have been conducted based on only the GAN learning method without considering the temporal characteristics of the image. Since an image (video) has a dimension that distinguishes time, GAN learning for images is more sophisticated than GAN learning for images. Although a method of designing a dedicated architecture considering time is being studied, the generated image is still indistinguishable from the actual image.

바닐라 GAN에서 StyleGAN에 이르기까지 이미지 생성에 대한 학습이 엄격하게 연구되었지만, 추가적인 특성(시간적 특성)으로 인해 영상 제작에 어려움이 있다. From vanilla GAN to StyleGAN, learning for image generation has been rigorously studied, but there are difficulties in video production due to additional characteristics (temporal characteristics).

영상 생성을 위해 개발된 VGAN은 다른 차원과 마찬가지로 시간을 고려한 3D 컨볼루션이 있는 생성자와 감별자로 구성된다. 그 후, TGAN과 MoCoGAN은 생성 과정에서 시간적 일관성을 모델링하기 위한 주요 성분으로 일시적 잠재 변수를 도입했다. 그러나, 이러한 GAN 방식에서 생성된 영상은 생성된 이미지에 비해 정교하지 못하다. Developed for image generation, VGAN consists of a generator and a discriminator with time-considered 3D convolution like other dimensions. After that, TGAN and MoCoGAN introduced temporal latent variables as main components for modeling temporal coherence during generation. However, the image generated by such a GAN method is less sophisticated than the generated image.

이에, 시간의 특성(AoT: Arrow of Time)을 고려하여 영상을 생성하는 모델을 통해 정교하게 영상을 생성하기 위한 방법이 필요하다. Accordingly, there is a need for a method for precisely generating an image through a model for generating an image in consideration of the characteristic of time (AoT: Arrow of Time).

본 발명은 실제 영상과 생성된 가상 영상뿐만 아니라, 실제 영상 및 가상 영상의 시간 특성을 반전시켜 역방향으로 변환된 영상을 분류를 처리하는 학습을 통해 시간의 특성을 고려한 영상 생성 방법 및 그를 위한 장치를 제공하는 데 주된 목적이 있다.The present invention provides an image generation method and an apparatus therefor in consideration of temporal characteristics through learning to process classification of reversely converted images by inverting temporal characteristics of real images and virtual images, as well as real images and generated virtual images. Its main purpose is to provide

본 발명의 일 측면에 의하면, 상기 목적을 달성하기 위한 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 시간 특성을 고려한 영상 생성 학습 방법은, 소정의 입력값 기반의 잠재 벡터를 획득하는 벡터 획득 단계; 상기 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하는 생성 처리 단계; 실제 영상에 대한 실제 영상 데이터를 획득하는 영상 획득 단계; 상기 가상 영상 데이터 및 상기 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하는 변환 단계; 및 상기 가상 영상 데이터, 상기 실제 영상 데이터, 상기 역방향 가상 영상 데이터 및 상기 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 감별 처리 단계를 수행할 수 있다. According to an aspect of the present invention, an image generation and learning method in consideration of time characteristics performed by a computing device including one or more processors and a memory for storing one or more programs executed by the processor for achieving the above object, a vector obtaining step of obtaining a latent vector based on a predetermined input value; a generation processing step of generating virtual image data for a virtual image by inputting the latent vector; an image acquisition step of acquiring real image data for the real image; a conversion step of inverting temporal characteristics of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data; and comparing at least two data among the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data to process classification for each of the image authenticity and the moving direction of the image to generate an image. Differential processing steps can be performed to ensure that

또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 영상 생성 장치는, 시간 특성을 고려하여 영상을 생성하는 장치로서, 하나 이상의 프로세서; 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서, 소정의 입력값 기반의 잠재 벡터를 획득하는 벡터 획득 단계; 상기 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하는 생성 처리 단계; 실제 영상에 대한 실제 영상 데이터를 획득하는 영상 획득 단계; 상기 가상 영상 데이터 및 상기 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하는 변환 단계; 및 상기 가상 영상 데이터, 상기 실제 영상 데이터, 상기 역방향 가상 영상 데이터 및 상기 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 감별 처리 단계를 포함하는 동작들을 수행할 수 있다. Further, according to another aspect of the present invention, an image generating apparatus for achieving the above object is an apparatus for generating an image in consideration of temporal characteristics, comprising: one or more processors; and a memory storing one or more programs executed by the processor, wherein when the programs are executed by the one or more processors, the one or more processors acquires a latent vector based on a predetermined input value. ; a generation processing step of generating virtual image data for a virtual image by inputting the latent vector; an image acquisition step of acquiring real image data for the real image; a conversion step of inverting temporal characteristics of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data; and comparing at least two data among the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data to process classification for each of the image authenticity and the moving direction of the image to generate an image. It is possible to perform operations including a differential processing step to make it possible.

또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 영상 생성 방법은, 입력 벡터를 입력 받고, 상기 입력 벡터에 대한 특징값을 추출하며, 가상 영상 데이터 및 실제 영상 데이터의 특징값을 비교하여 가상 영상의 진위 여부를 학습한 제1 학습 결과와 가상 영상 데이터 및 역방향 가상 영상 데이터의 특징값을 비교하여 가상 영상의 진행 방향을 학습한 제2 학습 결과를 적용하여 신규 영상을 생성하고, 생성된 신규 영상을 출력할 수 있다. In addition, according to another aspect of the present invention, an image generating method performed by a computing device including one or more processors for achieving the above object and a memory for storing one or more programs executed by the processor, an input vector A first learning result obtained by receiving an input, extracting a feature value of the input vector, and learning whether a virtual image is authentic or not by comparing feature values of the virtual image data and the real image data, and the features of the virtual image data and the reverse virtual image data A new image may be generated by applying the second learning result obtained by learning the progress direction of the virtual image by comparing the values, and the generated new image may be output.

이상에서 설명한 바와 같이, 본 발명은 시간적 특성을 고려하여 사실적인 영상 생성이 가능한 효과가 있다. As described above, the present invention has the effect of enabling realistic image generation in consideration of temporal characteristics.

또한, 본 발명은 Self-supervision을 활용하여 다양한 데이터 셋을 자동으로 구축할 수 있는 효과가 있다. In addition, the present invention has the effect of automatically constructing various data sets by utilizing self-supervision.

또한, 본 발명은 데이터셋을 직접 수작업으로 수정할 필요 없이 자동으로 정답지가 생성됨에 따라 사람의 노동력(human labor)도 줄이면서 학습에 더 효율적인 성능을 이끌어 낼 수 있는 효과가 있다. In addition, the present invention has an effect that can lead to more efficient performance in learning while reducing human labor as the correct answer sheet is automatically generated without the need to manually modify the dataset.

도 1은 본 발명의 실시예에 따른 영상 생성 장치를 개략적으로 나타낸 블록 구성도이다.
도 2는 본 발명의 실시예에 따른 프로세서의 학습을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.
도 3은 본 발명의 실시예에 따른 영상 생성을 위한 학습 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 실시예에 따른 프로세서의 영상 생성을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.
도 5는 본 발명의 실시예에 따른 영상 생성 방법을 설명하기 위한 순서도이다.
도 6은 본 발명의 제1 실시예에 따른 영상 생성 장치의 학습 동작을 설명하기 위한 예시도이다.
도 7은 본 발명의 제2 실시예에 따른 영상 생성 장치의 학습 동작을 설명하기 위한 예시도이다.
도 8a 내지 도 8c는 본 발명의 실시예에 따른 영상 생성 장치의 학습 결과 및 적용 결과를 나타낸 도면이다.
1 is a block diagram schematically showing an image generating apparatus according to an embodiment of the present invention.
2 is a block diagram schematically illustrating an operation configuration for learning of a processor according to an embodiment of the present invention.
3 is a flowchart illustrating a learning method for image generation according to an embodiment of the present invention.
4 is a block diagram schematically illustrating an operation configuration for image generation of a processor according to an embodiment of the present invention.
5 is a flowchart illustrating an image generating method according to an embodiment of the present invention.
6 is an exemplary view for explaining a learning operation of the image generating apparatus according to the first embodiment of the present invention.
7 is an exemplary diagram for explaining a learning operation of the image generating apparatus according to the second embodiment of the present invention.
8A to 8C are diagrams illustrating a learning result and an application result of the image generating apparatus according to an embodiment of the present invention.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다. 이하에서는 도면들을 참조하여 본 발명에서 제안하는 시간의 특성을 고려한 영상 생성 방법 및 그를 위한 장치에 대해 자세하게 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In describing the present invention, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, preferred embodiments of the present invention will be described below, but the technical spirit of the present invention is not limited thereto and may be variously implemented by those skilled in the art without being limited thereto. Hereinafter, an image generating method and apparatus therefor in consideration of the characteristic of time proposed by the present invention will be described in detail with reference to the drawings.

도 1은 본 발명의 실시예에 따른 영상 생성 장치를 개략적으로 나타낸 블록 구성도이다.1 is a block diagram schematically showing an image generating apparatus according to an embodiment of the present invention.

본 실시예에 따른 영상 생성 장치(100)는 입력부(110), 출력부(120), 프로세서(130), 메모리(140) 및 데이터 베이스(150)를 포함한다. 도 1의 영상 생성 장치(100)는 일 실시예에 따른 것으로서, 도 1에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 영상 생성 장치(100)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 영상 생성 장치(100)는 컴퓨팅 디바이스로 구현될 수 있고, 영상 생성 장치(100)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.The image generating apparatus 100 according to the present embodiment includes an input unit 110 , an output unit 120 , a processor 130 , a memory 140 , and a database 150 . The image generating apparatus 100 of FIG. 1 is according to an embodiment, and not all blocks shown in FIG. 1 are essential components, and in another embodiment, some blocks included in the image generating apparatus 100 are added or changed. Or it can be deleted. Meanwhile, the image generating apparatus 100 may be implemented as a computing device, and each component included in the image generating apparatus 100 may be implemented as a separate software device or as a separate hardware device combined with software. can

영상 생성 장치(100)는 잠재 벡터를 입력 받고, 잠재 벡터를 입력으로 생성자를 통해 가상 영상에 대한 가상 영상 데이터를 생성하면서 실제 영상에 대한 실제 영상 데이터를 획득하며, 가상 영상 데이터 및 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하고, 생성자와 연동하는 감별자를 통해 가상 영상 데이터, 실제 영상 데이터, 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 동작을 수행한다. The image generating apparatus 100 receives a latent vector as an input, generates virtual image data for a virtual image through a generator using the latent vector as an input, and acquires real image data for a real image, each of virtual image data and real image data Generates reverse virtual image data and reverse real image data by inverting the temporal characteristics of , and compares at least two data among virtual image data, real image data, reverse virtual image data, and reverse real image data through a discriminator that works with the generator Thus, an operation of generating an image is performed by processing the classification for each of the image authenticity and the moving direction of the image.

입력부(110)는 영상 생성 장치(100)에서의 영상 생성 동작을 수행하기 위한 신호 또는 데이터를 입력하거나 획득하는 수단을 의미한다. 입력부(110)는 프로세서(130)와 연동하여 다양한 형태의 신호 또는 데이터를 입력하거나, 외부 장치와의 연동을 통해 신호 또는 데이터를 획득하여 프로세서(130)로 전달할 수도 있다. 여기서, 입력부(110)는 실제 영상, 잠재 벡터, 랜덤 변수, 소정의 입력값 등을 입력하기 위한 모듈로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다. The input unit 110 means a means for inputting or obtaining a signal or data for performing an image generating operation in the image generating apparatus 100 . The input unit 110 may interwork with the processor 130 to input various types of signals or data, or may obtain signals or data through interworking with an external device and transmit the signals or data to the processor 130 . Here, the input unit 110 may be implemented as a module for inputting an actual image, a latent vector, a random variable, a predetermined input value, and the like, but is not limited thereto.

출력부(120)는 프로세서(130)와 연동하여 가상 영상 데이터 기반의 영상의 진위 여부 및 영상의 진행 방향 등의 학습 결과, 영상 생성 결과 등 다양한 정보를 출력할 수 있다. 출력부(120)는 영상 생성 장치(100)에 구비된 디스플레이(미도시)를 통해 다양한 정보를 출력할 수 있으나 반드시 이에 한정되는 것은 아니며, 다양한 형태의 방식으로 출력을 수행할 수 있다. The output unit 120 may output various information, such as a learning result such as whether an image based on virtual image data is authentic or not and an image progress direction, and an image generation result in conjunction with the processor 130 . The output unit 120 may output various information through a display (not shown) provided in the image generating apparatus 100 , but is not limited thereto, and may perform output in various forms.

프로세서(130)는 메모리(140)에 포함된 적어도 하나의 명령어 또는 프로그램을 실행시키는 기능을 수행한다.The processor 130 performs a function of executing at least one instruction or program included in the memory 140 .

본 실시예에 따른 프로세서(130)는 입력부(110) 또는 데이터 베이스(150)로부터 획득한 잠재 벡터 또는 실제 영상 데이터를 기반으로 기계학습을 수행하고, 기계학습 결과를 기반으로 기 학습되지 않은 가상 영상을 생성하는 동작을 수행한다. The processor 130 according to this embodiment performs machine learning based on the latent vector or real image data obtained from the input unit 110 or the database 150, and a virtual image that is not pre-learned based on the machine learning result. operation to create

프로세서(130)는 획득된 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하고, 실제 영상에 대한 실제 영상 데이터를 획득한다. The processor 130 generates virtual image data for a virtual image by inputting the obtained latent vector, and acquires real image data for the real image.

또한, 프로세서(130)는 가상 영상 데이터 및 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성한다. Also, the processor 130 inverts temporal characteristics of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data.

또한, 프로세서(130)는 가상 영상 데이터, 실제 영상 데이터, 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 한다. 본 실시예에 따른 프로세서(130)의 자세한 동작은 도 2 내지 5에서 설명하도록 한다. In addition, the processor 130 generates an image by comparing at least two data among virtual image data, real image data, reverse virtual image data, and reverse real image data to process classification of whether an image is authentic or not and a moving direction of the image. let this be done Detailed operations of the processor 130 according to the present embodiment will be described with reference to FIGS. 2 to 5 .

메모리(140)는 프로세서(130)에 의해 실행 가능한 적어도 하나의 명령어 또는 프로그램을 포함한다. 메모리(140)는 가상 영상 데이터를 생성하는 동작, 영상 데이터의 진행 방향을 변환하는 동작, 가상 영상에 대한 진위 여부의 분류를 처리하는 동작, 가상 영상에 대한 진행 방향의 분류를 처리하는 동작, 영상 생성을 수행하는 동작 등을 위한 명령어 또는 프로그램을 포함할 수 있다. The memory 140 includes at least one instruction or program executable by the processor 130 . The memory 140 includes an operation of generating virtual image data, an operation of converting a moving direction of image data, an operation of processing classification of authenticity with respect to a virtual image, an operation of processing a classification of a moving direction of the virtual image, an image It may include an instruction or a program for an operation of generating and the like.

데이터베이스(150)는 데이터베이스 관리 프로그램(DBMS)을 이용하여 컴퓨터 시스템의 저장공간(하드디스크 또는 메모리)에 구현된 일반적인 데이터구조를 의미하는 것으로, 데이터의 검색(추출), 삭제, 편집, 추가 등을 자유롭게 행할 수 있는 데이터 저장형태를 뜻하는 것으로, 오라클(Oracle), 인포믹스(Infomix), 사이베이스(Sybase), DB2와 같은 관계형 데이타베이스 관리 시스템(RDBMS)이나, 겜스톤(Gemston), 오리온(Orion), O2 등과 같은 객체 지향 데이타베이스 관리 시스템(OODBMS) 및 엑셀론(Excelon), 타미노(Tamino), 세카이주(Sekaiju) 등의 XML 전용 데이터베이스(XML Native Database)를 이용하여 본 발명의 일 실시예의 목적에 맞게 구현될 수 있고, 자신의 기능을 달성하기 위하여 적당한 필드(Field) 또는 엘리먼트들을 가지고 있다.The database 150 refers to a general data structure implemented in the storage space (hard disk or memory) of a computer system using a database management program (DBMS), and performs data search (extraction), deletion, editing, addition, etc. Relational database management system (RDBMS) such as Oracle, Infomix, Sybase, DB2, Gemston, Orion ), an object-oriented database management system (OODBMS) such as O2, and an XML Native Database such as Excelon, Tamino, Sekaiju, etc. The purpose of an embodiment of the present invention It can be implemented according to the requirements, and has appropriate fields or elements to achieve its function.

본 실시예에 따른 데이터베이스(150)는 영상 생성 또는 영상 생성을 위한 학습과 관련된 데이터를 저장하고, 기 저장된 영상 생성 또는 영상 생성을 위한 학습과 관련된 데이터를 제공할 수 있다. The database 150 according to the present embodiment may store data related to image generation or learning for image generation, and may provide pre-stored data related to image generation or learning for image generation.

데이터베이스(150)에 저장된 데이터는 잠재 벡터, 영상 데이터(예: 실제 영상 데이터, 가상 영상 데이터, 역방향 실제 영상 데이터, 역방향 가상 영상 데이터 등), 학습 결과(예: 제1 학습 결과, 제2 학습 결과, 영상 생성 학습 결과 등), 영상 생성 결과 등에 대한 데이터일 수 있다. 데이터베이스(140)는 영상 생성 장치(100) 내에 구현되는 것으로 기재하고 있으나 반드시 이에 한정되는 것은 아니며, 별도의 데이터 저장장치로 구현될 수도 있다.Data stored in the database 150 include latent vectors, image data (eg, real image data, virtual image data, reverse real image data, reverse virtual image data, etc.), learning results (eg, first learning result, second learning result). , image generation learning results, etc.), image generation results, and the like. The database 140 is described as being implemented in the image generating apparatus 100 , but is not necessarily limited thereto, and may be implemented as a separate data storage device.

도 2는 본 발명의 실시예에 따른 프로세서의 학습을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.2 is a block diagram schematically illustrating an operation configuration for learning of a processor according to an embodiment of the present invention.

본 실시예에 따른 영상 생성 장치(100)에 포함된 프로세서(130)는 기계 학습을 기반으로 영상을 생성하는 동작을 수행한다. 여기서, 기계 학습은 생성적 적대 신경망(GAN: Generative Adversarial Network)을 이용한 학습인 것이 바람직하나 반드시 이에 한정되는 것은 아니다. The processor 130 included in the image generating apparatus 100 according to the present embodiment generates an image based on machine learning. Here, the machine learning is preferably learning using a generative adversarial network (GAN), but is not necessarily limited thereto.

영상 생성 장치(100)에 포함된 프로세서(130)는 획득된 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하고, 실제 영상에 대한 실제 영상 데이터를 획득하며, 가상 영상 데이터 및 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하고, 가상 영상 데이터, 실제 영상 데이터, 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 동작이 수행되도록 하며, 영상 생성을 수행하는 모든 기기에 탑재되거나, 영상 생성을 수행하는 소프트웨어와 연동할 수 있다. The processor 130 included in the image generating apparatus 100 generates virtual image data for a virtual image by inputting the obtained latent vector, obtains real image data for the real image, and obtains virtual image data and real image data. Reverse virtual image data and reverse real image data are generated by inverting respective temporal characteristics, and at least two data among virtual image data, real image data, reverse virtual image data, and reverse real image data are compared to determine whether the image is authentic or not. An operation for generating an image is performed by processing the classification for each of the moving directions of an image, and may be mounted on any device that generates an image, or may be linked with software that generates an image.

본 실시예에 따른 프로세서(130)는 벡터 획득부(210), 생성자(220), 영상 특징값 처리부(230), 영상 변환부(240), 감별자(250)를 포함할 수 있다. 도 2의 프로세서(130)는 일 실시예에 따른 것으로서, 도 2에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 프로세서(130)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 프로세서(130)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.The processor 130 according to the present embodiment may include a vector acquirer 210 , a generator 220 , an image feature value processor 230 , an image converter 240 , and a discriminator 250 . The processor 130 of FIG. 2 is according to an embodiment, and not all blocks shown in FIG. 2 are essential components, and in other embodiments, some blocks included in the processor 130 may be added, changed, or deleted. have. On the other hand, each component included in the processor 130 may be implemented as a separate software device, or may be implemented as a separate hardware device combined with software.

벡터 획득부(210)는 소정의 입력값 기반의 잠재 벡터를 획득한다. The vector acquisition unit 210 acquires a latent vector based on a predetermined input value.

벡터 획득부(210)는 기 설정된 개수의 정규분포 값으로 구성된 잠재 벡터를 획득한다. 여기서, 잠재 벡터는 랜덤으로 선정된 정규분포 값 또는 기 설정된 개수의 영상 프레임 각각에서 산출된 정규분포 값으로 구성될 수 있다. The vector acquisition unit 210 acquires a latent vector composed of a preset number of normal distribution values. Here, the latent vector may be composed of a randomly selected normal distribution value or a normal distribution value calculated from each of a preset number of image frames.

생성자(220)는 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하는 동작을 수행한다. The generator 220 generates virtual image data for the virtual image by inputting the latent vector.

생성자(220)는 잠재 벡터를 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 가상 영상 데이터를 생성한다. 여기서, 가상 영상 데이터에 포함된 상기 적어도 하나의 세그먼트 블록 각각은 RGB에 대한 특징값을 포함할 수 있다. 여기서, 생성자(220)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 통해 가상 영상 데이터를 생성하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.The generator 220 generates virtual image data including at least one segment block in which the time generated based on the latent vector is continuous. Here, each of the at least one segment block included in the virtual image data may include a feature value for RGB. Here, it is preferable that the generator 220 generates virtual image data through convolutional neural network (CNN) learning, but is not limited thereto.

영상 특징값 처리부(230)는 생성자(220)로부터 가상 영상 데이터를 획득하고, 외부 장치로부터 실제 영상에 대한 실제 영상 데이터를 획득한다. The image feature value processing unit 230 obtains virtual image data from the generator 220 and real image data for the real image from an external device.

영상 특징값 처리부(230)는 실제 영상을 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 실제 영상 데이터를 입력 받을 수 있다. 여기서, 실제 영상 데이터에 포함된 상기 세그먼트 블록의 개수는 상기 가상 영상 데이터에 포함된 세크먼트 블록의 개수와 동일한 것이 바람직하다. The image feature value processing unit 230 may receive actual image data including at least one segment block in which time generated based on the actual image is continuous. Here, the number of segment blocks included in the real image data is preferably the same as the number of segment blocks included in the virtual image data.

영상 특징값 처리부(230)는 가상 영상과 무관한 실제 영상에 대한 실제 영상 데이터를 획득할 수 있다. 여기서, 실제 영상은 기 저장된 데이터베이스에서 추출되거나 네트워크 상에서 탐색된 영상의 전체 또는 일부에서 수집된 영상일 수 있다. The image feature value processing unit 230 may acquire real image data for a real image that is not related to the virtual image. Here, the actual image may be an image extracted from a pre-stored database or collected from all or part of an image searched on a network.

영상 특징값 처리부(230)는 획득된 가상 영상 데이터 및 실제 영상 데이터를 감별자(250)로 전달하는 동작을 수행한다. 한편, 생성자(220)에서 가상 영상 데이터 및 실제 영상 데이터를 감별자(250)로 직접 전달하는 경우, 영상 특징값 처리부(230)는 생략되거나, 생성자(220)에 포함된 형태로 구현될 수 있다.The image feature value processing unit 230 transmits the acquired virtual image data and real image data to the discriminator 250 . On the other hand, when the generator 220 directly transmits the virtual image data and the real image data to the discriminator 250 , the image feature value processing unit 230 may be omitted or implemented in a form included in the generator 220 . .

영상 변환부(240)는 가상 영상 데이터 및 실제 영상 데이터를 입력 받고, 가상 영상 데이터 및 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하는 동작을 수행한다. The image converter 240 receives virtual image data and real image data, and inverts temporal characteristics of each of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data.

본 실시예에 따른 영상 변환부(240)는 제1 영상 특징값 변환부(242) 및 제2 영상 특징값 변환부(244)를 포함한다. The image converter 240 according to the present embodiment includes a first image feature value converter 242 and a second image feature value converter 244 .

제1 영상 특징값 변환부(242)는 실제 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 상기 역방향 실제 영상 데이터를 생성하는 동작을 수행한다. 구체적으로, 제1 영상 특징값 변환부(242)는 실제 영상 데이터에 포함된 적어도 하나의 세그먼트 블록의 순서를 역순으로 변환하여 역방향 실제 영상 데이터를 생성할 수 있다. The first image feature value conversion unit 242 generates the reverse real image data by inverting the processing order based on the temporal characteristics of the actual image data. In detail, the first image feature value converter 242 may generate reverse real image data by converting the order of at least one segment block included in the real image data in a reverse order.

제2 영상 특징값 변환부(244)는 가상 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 역방향 가상 영상 데이터를 생성하는 동작을 수행한다. 구체적으로, 제2 영상 특징값 변환부(244)는 가상 영상 데이터에 포함된 적어도 하나의 세그먼트 블록의 순서를 역순으로 변환하여 역방향 가상 영상 데이터를 생성할 수 있다. The second image feature value conversion unit 244 generates reverse virtual image data by inverting the processing order based on the temporal characteristics of the virtual image data. Specifically, the second image feature value converter 244 may generate reverse virtual image data by converting the order of at least one segment block included in the virtual image data in a reverse order.

감별자(250)는 영상 특징값 처리부(230) 및 영상 변환부(240)과 연동하여 영상 생성을 위한 감별 처리를 수행한다. The discriminator 250 performs discrimination processing for generating an image in conjunction with the image feature value processing unit 230 and the image converting unit 240 .

감별자(250)는 가상 영상 데이터, 실제 영상 데이터, 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 한다. The discriminator 250 compares at least two data among virtual image data, real image data, reverse virtual image data, and reverse real image data to process classification of whether the image is authentic or not and the direction in which the image is moving to generate an image. let it be done

본 실시예에 따른 감별자(250)는 영상 특징값 추출부(252), 제1 감별자(254) 및 제2 감별자(256)를 포함한다. The discriminator 250 according to the present embodiment includes an image feature value extractor 252 , a first discriminator 254 , and a second discriminator 256 .

영상 특징값 추출부(252)는 가상 영상 데이터, 실제 영상 데이터, 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터 각각에 대한 특징값을 추출할 수 있다. 영상 특징값 추출부(252)는 제1 감별자(254) 및 제2 감별자(256)와 서로 공유된 적어도 하나의 컨볼루션 레이어로 구성될 수 있다. The image feature value extractor 252 may extract feature values for each of the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data. The image feature value extractor 252 may include at least one convolutional layer shared with the first discriminator 254 and the second discriminator 256 .

제1 감별자(254) 및 제2 감별자(256)는 서로 공유된 적어도 하나의 컨볼루션 레이어를 통과한 특징값을 기반으로 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리한다. The first discriminator 254 and the second discriminator 256 process the classification of each of the image's authenticity and the moving direction based on the feature value passed through at least one convolutional layer shared with each other.

제1 감별자(254)는 가상 영상 데이터 및 실제 영상 데이터에 대한 특징값을 이용하여 상기 가상 영상의 진위 여부에 대한 분류를 처리한다. 제1 감별자(254)는 가상 영상 데이터 및 실제 영상 데이터의 특징값을 비교하여 가상 영상의 진위 여부를 학습하고, 학습한 제1 학습 결과를 출력한다. The first discriminator 254 processes the classification of the authenticity of the virtual image by using the feature values of the virtual image data and the real image data. The first discriminator 254 compares the feature values of the virtual image data and the real image data to learn whether the virtual image is authentic or not, and outputs the learned first learning result.

제1 감별자(254)는 제1 학습 결과에 근거하여 생성자(220)로 피드백 정보를 전달하며, 생성자(220)에서 가상 영상이 참 신호로 분류되는 가상 영상이 생성될 때까지 반복하여 가상 영상의 진위 여부를 학습한다. 여기서, 제1 감별자(254)는 생성자(220)와 연동하여 가상 영상 데이터가 참 신호에 해당하도록 분류하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network)을 기반으로 학습을 수행하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.The first discriminator 254 transmits feedback information to the generator 220 based on the first learning result, and repeats the virtual image until the generator 220 generates a virtual image in which the virtual image is classified as a true signal. learn the authenticity of Here, it is preferable that the first discriminator 254 performs learning based on a generative adversarial network (GAN) in order to classify the virtual image data to correspond to the true signal in conjunction with the generator 220 . It is not necessarily limited to this.

제2 감별자(256)는 가상 영상 데이터 및 역방향 가상 영상 데이터에 대한 특징값을 이용하여 영상의 진행 방향에 대한 분류를 처리한다. 제2 감별자(256)는 가상 영상 데이터 및 역방향 가상 영상 데이터의 특징값을 비교하여 가상 영상의 진행 방향을 학습하고, 학습한 제2 학습 결과를 출력한다. The second discriminator 256 processes the classification of the moving direction of the image by using the feature values of the virtual image data and the backward virtual image data. The second discriminator 256 learns the moving direction of the virtual image by comparing the feature values of the virtual image data and the reverse virtual image data, and outputs the learned second learning result.

제2 감별자(256)는 제2 학습 결과에 근거하여 생성자(220)로 피드백 정보를 전달하며, 생성자(220)에서 순방향 가상 영상이 참 신호로 분류되는 가상 영상이 생성될 때까지 반복하여 가상 영상의 진위 여부를 학습한다. 여기서, 제2 감별자(256)는 생성자(220)와 연동하여 가상 영상 데이터가 참 신호에 해당하도록 분류하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network)을 기반으로 학습을 수행하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.The second discriminator 256 transmits feedback information to the generator 220 based on the second learning result, and the generator 220 repeatedly generates a virtual image in which the forward virtual image is classified as a true signal. Learn whether an image is authentic or not. Here, it is preferable that the second discriminator 256 perform learning based on a generative adversarial network (GAN) in order to classify the virtual image data to correspond to the true signal in conjunction with the generator 220 . It is not necessarily limited to this.

감별자(250)는 제1 학습 결과 및 제2 학습 결과를 기반으로 피드백 정보를 산출하고, 피드백 정보를 이용하여 감별자(250)에서 가상 영상 데이터 및 실제 영상 데이터를 비교하여 순방향의 가상 영상이 참 신호로 분류될 때까지 반복하여 가상 영상의 진위 여부를 학습한다.The discriminator 250 calculates feedback information based on the first learning result and the second learning result, and compares the virtual image data and the real image data in the discriminator 250 using the feedback information to obtain a forward virtual image. It learns whether the virtual image is authentic or not by iterating until it is classified as a true signal.

도 3은 본 발명의 실시예에 따른 영상 생성을 위한 학습 방법을 설명하기 위한 순서도이다.3 is a flowchart illustrating a learning method for image generation according to an embodiment of the present invention.

영상 생성 장치(100)는 실제 영상 기반의 실제 영상 데이터를 획득한다(S310). 여기서, 실제 영상 데이터는 외부 장치로부터 획득될 수 있으며, 실제 영상을 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함할 수 있다. The image generating apparatus 100 acquires actual image data based on an actual image ( S310 ). Here, the actual image data may be acquired from an external device, and may include at least one segment block in which time generated based on the actual image is continuous.

영상 생성 장치(100)는 잠재 벡터를 획득하고(S320), 잠재 벡터를 기반으로 가상 영상을 생성하고, 생성된 가상 영상에 대한 가상 영상 데이터를 생성한다(S330). 영상 생성 장치(100)는 잠재 벡터를 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 가상 영상 데이터를 생성한다. 여기서, 가상 영상 데이터에 포함된 상기 적어도 하나의 세그먼트 블록 각각은 RGB에 대한 특징값을 포함할 수 있다.The image generating apparatus 100 obtains a latent vector (S320), generates a virtual image based on the latent vector, and generates virtual image data for the generated virtual image (S330). The image generating apparatus 100 generates virtual image data including at least one segment block in which time generated based on the latent vector is continuous. Here, each of the at least one segment block included in the virtual image data may include a feature value for RGB.

영상 생성 장치(100)는 가상 영상 데이터 및 실제 영상 데이터 각각의 재생 방향을 변환한다(S340). 영상 생성 장치(100)는 가상 영상 데이터 및 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성한다. The image generating apparatus 100 converts the respective reproduction directions of the virtual image data and the real image data ( S340 ). The image generating apparatus 100 generates reverse virtual image data and reverse real image data by inverting temporal characteristics of each of the virtual image data and the real image data.

영상 생성 장치(100)는 제1 감별 처리를 통해 제1 학습결과를 생성한다(S350). 영상 생성 장치(100)는 가상 영상 데이터 및 실제 영상 데이터에 대한 특징값을 이용하여 상기 가상 영상의 진위 여부에 대한 분류를 처리한다. 영상 생성 장치(100)는 가상 영상 데이터 및 실제 영상 데이터의 특징값을 비교하여 가상 영상의 진위 여부를 학습하고, 학습한 제1 학습 결과를 출력한다. The image generating apparatus 100 generates a first learning result through a first discrimination process (S350). The image generating apparatus 100 processes whether the virtual image is authentic or not by using feature values of the virtual image data and the real image data. The image generating apparatus 100 compares the feature values of the virtual image data and the real image data to learn whether the virtual image is authentic or not, and outputs the learned first learning result.

영상 생성 장치(100)는 제2 감별 처리를 통해 제2 학습결과를 생성한다(S360). 영상 생성 장치(100)는 가상 영상 데이터 및 역방향 가상 영상 데이터에 대한 특징값을 이용하여 영상의 진행 방향에 대한 분류를 처리한다. 영상 생성 장치(100)는 가상 영상 데이터 및 역방향 가상 영상 데이터의 특징값을 비교하여 가상 영상의 진행 방향을 학습하고, 학습한 제2 학습 결과를 출력한다. The image generating apparatus 100 generates a second learning result through a second discrimination process (S360). The image generating apparatus 100 processes the classification of the moving direction of the image by using the feature values of the virtual image data and the backward virtual image data. The image generating apparatus 100 compares the feature values of the virtual image data and the reverse virtual image data to learn the moving direction of the virtual image, and outputs the learned second learning result.

도 3에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 3에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 3은 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each step is sequentially executed in FIG. 3 , it is not necessarily limited thereto. In other words, since it may be applicable to changing and executing the steps described in FIG. 3 or executing one or more steps in parallel, FIG. 3 is not limited to a time-series order.

도 3에 기재된 본 실시예에 따른 영상 생성 학습 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 영상 생성 학습 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.The image generation learning method according to the present embodiment described in FIG. 3 may be implemented as an application (or program) and recorded in a recording medium readable by a terminal device (or computer). The recording medium in which the application (or program) for implementing the image generation learning method according to the present embodiment is recorded and the terminal device (or computer) can read is any type of recording device in which data that can be read by the computing system is stored. or media.

도 4는 본 발명의 실시예에 따른 프로세서의 영상 생성을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.4 is a block diagram schematically illustrating an operation configuration for image generation of a processor according to an embodiment of the present invention.

본 실시예에 따른 영상 생성 장치(100)에 포함된 프로세서(130)는 입력 벡터 획득부(410), 신경망 처리부(420), 학습 결과 적용부(430), 영상 생성부(440) 및 결과 출력부(450)를 포함한다. 도 4의 프로세서(130)는 일 실시예에 따른 것으로서, 도 4에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 프로세서(130)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 프로세서(130)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.The processor 130 included in the image generating apparatus 100 according to the present embodiment includes an input vector obtaining unit 410 , a neural network processing unit 420 , a learning result application unit 430 , an image generating unit 440 , and a result output. part 450 . The processor 130 of FIG. 4 is according to an embodiment, and not all blocks shown in FIG. 4 are essential components, and in other embodiments, some blocks included in the processor 130 may be added, changed, or deleted. have. On the other hand, each component included in the processor 130 may be implemented as a separate software device, or may be implemented as a separate hardware device combined with software.

입력 벡터 획득부(410)는 영상 생성을 위한 입력 벡터를 획득한다. 여기서, 입력 벡터는 학습 시 입력되지 않은 영상을 생성하기 위한 입력값을 의미한다. 여기서, 입력 벡터는 랜덤으로 입력된 값 또는 사용자의 조작에 의해 입력된 값을 포함할 수 있다. The input vector acquisition unit 410 acquires an input vector for image generation. Here, the input vector means an input value for generating an image that is not input during learning. Here, the input vector may include a value input at random or a value input by a user's manipulation.

신경망 처리부(420)는 획득된 입력 벡터에 대한 특징값을 추출하는 동작을 수행한다. 신경망 처리부(420)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 기반으로 특징값을 추출할 수 있다. 여기서, 특징값은 복수의 영상 특징값을 포함할 수 있다.The neural network processing unit 420 performs an operation of extracting a feature value for the obtained input vector. The neural network processing unit 420 may extract a feature value based on Convolutional Neural Networks (CNN) learning. Here, the feature value may include a plurality of image feature values.

학습 결과 적용부(430)는 가상 영상 데이터 및 실제 영상 데이터의 특징값을 비교하여 가상 영상의 진위 여부를 학습한 제1 학습 결과와 가상 영상 데이터 및 역방향 가상 영상 데이터의 특징값을 비교하여 가상 영상의 진행 방향을 학습한 제2 학습 결과를 적용하며, 영상 생성부(440)는 적용된 학습 결과를 기반으로 신규 영상을 생성한다. 여기서, 신규 영상은 가상 영상을 의미한다. The learning result application unit 430 compares the first learning result of learning whether the virtual image is authentic or not by comparing the feature values of the virtual image data and the real image data, and compares the feature values of the virtual image data and the reverse virtual image data to obtain a virtual image The second learning result of learning the progress direction is applied, and the image generator 440 generates a new image based on the applied learning result. Here, the new image means a virtual image.

결과 출력부(450)는 생성된 신규 영상을 출력하여 제공한다. 여기서, 신규 영상은 영상 인식, 동작 인식 등의 학습을 위한 데이터 세트로 제공될 수 있다. The result output unit 450 outputs and provides the generated new image. Here, the new image may be provided as a data set for learning such as image recognition and motion recognition.

도 5는 본 발명의 실시예에 따른 영상 생성 방법을 설명하기 위한 순서도이다.5 is a flowchart illustrating an image generating method according to an embodiment of the present invention.

영상 생성 장치(100)는 영상 생성을 위한 입력 벡터를 획득한다(S510). 여기서, 입력 벡터는 학습 시 입력되지 않은 영상을 생성하기 위한 입력값을 의미한다. 여기서, 입력 벡터는 랜덤으로 입력된 값 또는 사용자의 조작에 의해 입력된 값을 포함할 수 있다.The image generating apparatus 100 obtains an input vector for generating an image ( S510 ). Here, the input vector means an input value for generating an image that is not input during learning. Here, the input vector may include a value input at random or a value input by a user's manipulation.

영상 생성 장치(100)는 획득된 입력 벡터를 신경망 처리하여 특징값을 추출한다(S520). 여기서, 영상 생성 장치(100)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 기반으로 입력 벡터에 대한 특징값을 추출할 수 있다.The image generating apparatus 100 extracts a feature value by processing the obtained input vector with a neural network (S520). Here, the image generating apparatus 100 may extract a feature value of an input vector based on convolutional neural network (CNN) learning.

영상 생성 장치(100)는 기 학습된 학습 결과 적용하여(S530), 신규 영상을 생성한다(S540).The image generating apparatus 100 applies the pre-learned learning result (S530) to generate a new image (S540).

영상 생성 장치(100)는 가상 영상 데이터 및 실제 영상 데이터의 특징값을 비교하여 가상 영상의 진위 여부를 학습한 제1 학습 결과와 가상 영상 데이터 및 역방향 가상 영상 데이터의 특징값을 비교하여 가상 영상의 진행 방향을 학습한 제2 학습 결과를 적용하며, 적용된 학습 결과를 기반으로 신규 영상을 생성한다. 여기서, 신규 영상은 가상 영상을 의미한다. The image generating apparatus 100 compares the first learning result of learning whether the virtual image is authentic by comparing the feature values of the virtual image data and the real image data, and compares the feature values of the virtual image data and the reverse virtual image data of the virtual image. The second learning result of learning the progress direction is applied, and a new image is generated based on the applied learning result. Here, the new image means a virtual image.

영상 생성 장치(100)는 생성된 신규 영상을 출력하여 제공한다. 여기서, 신규 영상은 영상 인식, 동작 인식 등의 학습을 위한 데이터 세트로 제공될 수 있다. The image generating apparatus 100 outputs and provides the generated new image. Here, the new image may be provided as a data set for learning such as image recognition and motion recognition.

도 5에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 5에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 5는 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each step is sequentially executed in FIG. 5 , the present invention is not limited thereto. In other words, since it may be applicable to changing and executing the steps described in FIG. 5 or executing one or more steps in parallel, FIG. 5 is not limited to a chronological order.

도 5에 기재된 본 실시예에 따른 영상 생성 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 영상 생성 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.The image generating method according to the present embodiment described in FIG. 5 may be implemented as an application (or program) and recorded in a recording medium readable by a terminal device (or computer). A recording medium in which an application (or program) for implementing the image generating method according to the present embodiment is recorded and a terminal device (or computer) readable recording medium is any type of recording device in which data that can be read by a computing system is stored or includes media.

도 6은 본 발명의 제1 실시예에 따른 영상 생성 장치의 학습 동작을 설명하기 위한 예시도이다.6 is an exemplary view for explaining a learning operation of the image generating apparatus according to the first embodiment of the present invention.

본 발명의 제1 실시예에 따른 영상 생성 장치(100)의 프로세서(130)는 ArrowGAN 기반의 프레임워크를 적용하여 생성자(220)와 감별자(250)에서 인간처럼 영상에 대한 시간의 특성(AoT: Arrow of Time)을 인지하는 능력을 학습시키는 것을 목표로 한다. The processor 130 of the image generating apparatus 100 according to the first embodiment of the present invention applies an ArrowGAN-based framework to the generator 220 and the discriminator 250 for the characteristics of time (AoT) for images like humans. : It aims to learn the ability to recognize arrows of time.

이하, ArrowGAN 프레임워크에서의 감별자(250)에 대해 설명하도록 한다. Hereinafter, the discriminator 250 in the ArrowGAN framework will be described.

감별자(250)는 실제 영상과 페이크 영상(가상 영상)을 구별하고, 정방향 영상 및 역방향 영상도 구별한다. The discriminator 250 distinguishes between a real image and a fake image (virtual image), and also distinguishes a forward image and a reverse image.

감별자(250)는 입력 영상 x가 실제 영상일 때의 확률 p(real | x), 입력 영상 x가 순방향일 때의 확률 p(forward | x)를 출력한다. The discriminator 250 outputs a probability p (real | x) when the input image x is a real image, and a probability p (forward | x) when the input image x is forward.

감별자(250)는 공유된 컨볼루션 레이어(252)와 두 개의 출력단(254, 256)으로 구성된다. 감별자(250)는 주어진 영상 x에 대해, 자체 감독 이진 교차 엔트로피 손실을 설계하기 위해 수학식 1을 정의하고, 한 쌍의 순방향 영상 xfoward 및 반전을 통한 역방향 영상 xbackward를 생성한다.The discriminator 250 is composed of a shared convolutional layer 252 and two output terminals 254 and 256 . Differential character 250 is, for a given image x, define the equation (1) in order to design a self-directed binary cross-entropy loss and generates a reverse image over the forward backward x x foward and reverse image of the pair.

Figure 112020009882698-pat00001
Figure 112020009882698-pat00001

여기서, A는 AoT 세트 {forward, backward}를 의미하고, Pdata는 실제 영상의 분포를 의미하고, p(a | xa)는 영상이 정방향 재생인지 역방향 재생인지에 대한 예측값의 베르누이 분포를 의미한다. 상기 목적을 최소화함으로써, 감별자(250)는 수학식 2를 이용하여 시간의 특성에 대한 감각을 학습한다.Here, A means the AoT set {forward, backward}, P data means the distribution of the actual image, and p(a | x a ) means the Bernoulli distribution of the predicted values for whether the image is forward or backward. do. By minimizing the above objective, the discriminator 250 learns a sense of the characteristic of time using Equation (2).

Figure 112020009882698-pat00002
Figure 112020009882698-pat00002

감별자(250)는 실제 영상일 때의 확률 p(real | x) 학습에 대한 적대적 손실(Ladv)을 유지하고, 실제 영상과 생성된 가상 영상을 구별하여 극대화하려고 한다. 감별자(250)의 완전한 목적함수은 수학식 3과 같이 정의될 수 있다. The discriminator 250 maintains the adversarial loss (L adv ) for learning the probability p(real|x) when it is a real image, and tries to maximize it by distinguishing the real image from the generated virtual image. The complete objective function of the discriminator 250 may be defined as in Equation (3).

Figure 112020009882698-pat00003
Figure 112020009882698-pat00003

여기서 α는 두 항 사이의 중요도를 제어하기 위한 하이퍼변수이다.where α is a hypervariable to control the importance between the two terms.

도 6에 도시된 바와 같이, 본 발명은 두 가지 방식으로 감별자(250)를 훈련시킨다. 실제 영상 및 생성된 가상 영상은 공유 컨볼루션 레이어와 LSS D를 생성하는 제1 감별자(254)를 통과한다. As shown in Fig. 6, the present invention trains the discriminator 250 in two ways. The real image and the generated virtual image pass through the shared convolutional layer and the first discriminator 254 generating L SS D .

또한, 순방향 영상 및 역방향 영상은 공유 컨볼루션 레이어와 Ladv D를 생성하는 제2 감별자(256)을 통과한다. In addition, the forward image and the backward image pass through the shared convolutional layer and the second discriminator 256 that generates L adv D .

이하, ArrowGAN 프레임워크에서의 생성자(220)에 대해 설명하도록 한다. Hereinafter, the constructor 220 in the ArrowGAN framework will be described.

생성자(220)는 제약 조건(inductive bias)을 기반으로 생성된 가상 영상이 시간 내에 순방향으로 진행하는 것을 학습한다. 따라서, 생성자(220)는 생성된 가상 영상 G(z)를 감별자(250)로 입력함으로써, 감별자(250)로부터 손실을 받는다. 여기서, 손실은 수학식 4와 같이 정의될 수 있다. The generator 220 learns that a virtual image generated based on an inductive bias advances in a forward direction within time. Accordingly, the generator 220 inputs the generated virtual image G(z) to the discriminator 250 , thereby receiving a loss from the discriminator 250 . Here, the loss may be defined as Equation (4).

Figure 112020009882698-pat00004
Figure 112020009882698-pat00004

여기서 pz는 표준 가우스 분포 N (0, 1)입니다. 위의 목적을 최소화함으로써, 생성자(220)는 순방향 영상을 생성하기 위한 학습을 수행한다. 생성자(220)는 순방향 영상만 제작한다. 하지만, 감별자(250)는 실제 영상과 유사하게 만들기 위해 순방향 영상과 순방향 영상을 반전시킨 역방향 영상을 모두를 입력 받는다. where p z is the standard Gaussian distribution N (0, 1). By minimizing the above object, the generator 220 performs learning to generate a forward image. The generator 220 produces only a forward image. However, the discriminator 250 receives both the forward image and the reverse image obtained by inverting the forward image to make it similar to the actual image.

한편, 생성자(220)는 사실적으로 가상 영상을 생성하기 위하여 적대적 손실(Ladv)를 최소화한다. On the other hand, the generator 220 minimizes the hostile loss (L adv ) in order to realistically generate a virtual image.

Figure 112020009882698-pat00005
Figure 112020009882698-pat00005

생성자(220)는 생성자(220)에 대한 전체 목적을 최소화함으로써, 사실적이고 순방향으로 진행되는 영상을 생성하는 학습을 수행한다. 여기서 β는 두 용어 사이의 중요도를 제어하기 위한 하이퍼변수이다. The generator 220 performs learning to generate a realistic and forward-facing image by minimizing the overall purpose of the generator 220 . where β is a hypervariable to control the importance between the two terms.

본 발명에 따른 ArrowGAN 프레임워크는 일반적으로 사용되고 있는 다양한 GAN 학습 방식에 적용될 수 있다. 예를 들어, 본 발명에 따른 ArrowGAN 프레임워크는 VGAN(video Generative Adversarial Nets), TGAN (Temporal Generative Adversarial Nets), MoCoGAN 등에 적용될 수 있다. The ArrowGAN framework according to the present invention can be applied to various commonly used GAN learning methods. For example, the ArrowGAN framework according to the present invention may be applied to video Generative Adversarial Nets (VGAN), Temporal Generative Adversarial Nets (TGAN), MoCoGAN, and the like.

도 7은 본 발명의 제2 실시예에 따른 영상 생성 장치의 학습 동작을 설명하기 위한 예시도이다.7 is an exemplary diagram for explaining a learning operation of the image generating apparatus according to the second embodiment of the present invention.

본 발명의 제2 실시예에 따른 영상 생성 장치(100)의 프로세서(130)는 범주형으로 ArrowGAN 기반의 프레임워크를 적용하여 영상을 생성하는 것을 목표로 한다. 다시 말해, 제2 실시예에 따른 영상 생성 장치(100)의 프로세서(130)는 이미지 생성에 최신 기술을 사용하여 범주형 MoCoGAN 베이스 라인(baseline)에 비해 성능을 개선하고 범주 영상 생성을 위한 ArrowGAN 프레임 워크를 활용한다. The processor 130 of the image generating apparatus 100 according to the second embodiment of the present invention aims to generate an image by applying an ArrowGAN-based framework in a categorical manner. In other words, the processor 130 of the image generating apparatus 100 according to the second embodiment improves performance compared to the categorical MoCoGAN baseline by using the latest technology for image generation, and an ArrowGAN frame for generating a categorical image. use the work

베이스 라인은 프레임 단위로 생성되며 두 개의 감별자가 존재한다. 하나는 영상용 감별자이고, 다른 하나는 프레임용 감별자이다. Base lines are created in units of frames and there are two discriminators. One is a discriminator for an image, and the other is a discriminator for a frame.

비디오 생성과 이미지 생성 간의 격차를 줄이기 위해 이미지 생성에서 범주 형 MoCo-GAN에 이르기까지 최근의 효과적인 기술을 사용할 수 있다. To close the gap between video generation and image generation, recent and effective techniques, ranging from image generation to categorical MoCo-GANs, can be used.

먼저, 조건부 배치 정규화 (CBN: Conditional Batch Normalization, 730)을 확장하여 클래스 레이블을 생성자(220)에 전달한다. First, a class label is transmitted to the constructor 220 by extending Conditional Batch Normalization (CBN) 730 .

조건부 배치 정규화 계층(730)은 클래스 레이블(720)의 출력 이미지를 조정하기 위해 배치 정규화를 위한 매개 변수를 조작하여 생성자의 기능 활성화를 변조한다. 여기서, 영상 생성을 위해 각 프레임 생성자(220)에 조건부 배치 정규화 레이어(730)를 삽입한다.The conditional batch normalization layer 730 modulates the function activation of the constructor by manipulating parameters for batch normalization to adjust the output image of the class label 720 . Here, the conditional placement normalization layer 730 is inserted into each frame generator 220 for image generation.

또한, 감별자(250)는 프로젝션 감별자로 대체되며, 프로젝션 감별자는 두 번째 특징 벡터와 클래스 점수로 간주되는 클래스 임베딩 사이에서 내부 구성(inner product)을 계산한다. 3D 컨볼루션(740)을 사용하여 영상 도메인을 자연스럽게 일반화하기 위해 프로젝션 감별자를 수학식 6을 기반으로 수정할 수 있다.Also, the discriminator 250 is replaced by a projection discriminator, which computes an inner product between the second feature vector and the class embedding considered as the class score. In order to naturally generalize the image domain using the 3D convolution 740, the projection discriminator may be modified based on Equation (6).

Figure 112020009882698-pat00006
Figure 112020009882698-pat00006

여기서 y는 클래스 레이블을 나타내는 one-hot 벡터이고, V는 클래스 임베딩 행렬이고, Φ는 감별자의 최후 계층에서 특징을 추출하며, ø는 스칼라 값을 생성하는 풀리 커넥티드 레이어를 의미한다. Here, y is a one-hot vector representing a class label, V is a class embedding matrix, Φ is a feature extracted from the last layer of a discriminator, and ø is a fully connected layer that generates a scalar value.

다음으로, 본 발명에서는 안정적인 훈련을 위해 비디오 감별자 및 프레임 감별자 모두에서 스펙트럼 정규화 계층을 활용한다. 이후, 각 영역에서 안정적인 훈련과 다양한 영상을 위해 모드 탐색 손실을 추가한다. 설정에서 주어진 2 개의 잠재 벡터에 대해 생성된 영상 간의 차이를 비디오 간의 차이를 증가시킨다. 마지막으로, 본 발명에서는 잠재 벡터 사이의 거리에 걸쳐 생성된 영상 사이의 거리를 명시적으로 증진함으로써 영상의 다양성을 강화하고 모드 붕괴 문제를 완화시킬 수 있다. 특히, 본 발명에서는 그 역수의 최소화를 수학식 7과 같이 수행할 수 있다. Next, the present invention utilizes a spectral normalization layer in both the video discriminator and the frame discriminator for stable training. After that, mode search loss is added for stable training and various images in each domain. The difference between the images generated for the two latent vectors given in the settings increases the difference between the videos. Finally, in the present invention, by explicitly enhancing the distance between the generated images over the distance between the latent vectors, the diversity of images can be enhanced and the mode collapse problem can be alleviated. In particular, in the present invention, the minimization of the reciprocal can be performed as in Equation 7.

Figure 112020009882698-pat00007
Figure 112020009882698-pat00007

여기서, dz와 dv는 잠재 벡터 사이의 거리와 생성된 영상 사이의 거리를 각각 나타낸다.Here, d z and d v represent the distance between the latent vectors and the distance between the generated images, respectively.

본 발명의 제2 실시예에 따른 영상 생성 장치(100)의 프로세서(130)는 적대적 손실이 힌지 버전(hinge version of the adversarial losses), 자체 감독 손실(self-supervised losses) 및 모드 탐색 정규화기(mode-seeking regularizer) 등의 목적 함수로 범주형 ArrowGAN를 훈련한다. 생성자와 감별자의 훈련은 수학식 8과 같이, 주어진 최대-최소 문제를 해결함으로써 달성된다. The processor 130 of the image generating apparatus 100 according to the second embodiment of the present invention has a hinge version of the adversarial losses, self-supervised losses, and a mode search normalizer ( Train a categorical ArrowGAN with objective functions such as mode-seeking regularizer). The training of the generator and the discriminator is achieved by solving the given max-min problem as shown in Equation (8).

Figure 112020009882698-pat00008
Figure 112020009882698-pat00008

마지막으로, 생성자와 감별자의 전체 목적은 수학식 9와 같다. Finally, the overall purpose of the generator and the discriminator is shown in Equation (9).

Figure 112020009882698-pat00009
Figure 112020009882698-pat00009

여기서, λ1, λ2, 및 λ3은 1, 0.2 및 0.2 각각으로 가정할 수 있다. 범주형 ArrowGAN에 대한 구조는 도 7과 같다. 범주형 ArrowGAN은 클레스 레이블(720)의 입력을 통해 레이블 정보에 대응하는 가상 영상(제1 내지 제4 가상 영상)을 생성하고, 이를 통해 생성적 적대 학습을 수행할 수 있다. Here, λ1, λ2, and λ3 may be assumed to be 1, 0.2, and 0.2, respectively. The structure of the categorical ArrowGAN is shown in FIG. 7 . The categorical ArrowGAN generates virtual images (first to fourth virtual images) corresponding to the label information through the input of the class label 720 , and through this, generative adversarial learning can be performed.

도 8a 내지 도 8c는 본 발명의 실시예에 따른 영상 생성 장치의 학습 결과 및 적용 결과를 나타낸 도면이다. 8A to 8C are diagrams illustrating a learning result and an application result of the image generating apparatus according to an embodiment of the present invention.

도 8a는 범주형 ArrowGAN에서 생성된 선별되지 않은 영상 세트를 나타낸다. 도 8a는 Weizmann, UCFsports 및 UCF-101에서 클래스 레이블별로 유효한 비디오를 정 성적으로 얼마나 잘 생성하는지를 보여준다. Fig. 8a shows an unselected image set generated in categorical ArrowGAN Figure 8a shows how well Weizmann, UCFsports and UCF-101 qualitatively generate valid videos by class label.

도 8a의 (a, b)는 서로 다른 8 개의 클래스에 대한 4 개의 연속 프레임을 나타내고, 도 8a의 (c)는 많은 비디오에서 무작위로 샘플링 된 프레임을 나타낸다. Fig. 8a (a, b) shows four consecutive frames for 8 different classes, and Fig. 8a (c) shows randomly sampled frames from many videos.

도 8a의 (a, b)는 클래스 레이블만 있는 잠재 공간에서 생성된 샘플이다. 또한, 범주형 ArrowGAN은 도 8a의 (c)와 같이 단순한 데이터 세트뿐만 아니라 대규모 데이터 세트 UCF-101에서도 영상을 생성할 수 있다.8A (a, b) are samples generated in the latent space with only class labels. In addition, the categorical ArrowGAN can generate images not only in a simple data set as shown in Fig. 8a (c) but also in a large data set UCF-101.

도 8b는 일반적인 GAN 학습의 베이스라인에 ArrowGAN 프레임워크를 적용한 효과를 나타낸다. Figure 8b shows the effect of applying the ArrowGAN framework to the baseline of general GAN learning.

도 8b는 ArrowGAN이 적용될 때 모든 베이스라인과 모든 데이터 세트에 대해 IS의 지속적인 개선을 정량적으로 보여준다. 본 발명에서는 생성자를 수정하지 않고, 감별자에 최소한으로 변경하여 보조 자체 감독 작업을 추가한다. 이는 ArrorGAN 프레임워크가 다른 영상-GAN이에 쉽게 적용할 수 있음을 의미한다. Figure 8b quantitatively shows the continuous improvement of IS for all baselines and all data sets when ArrowGAN is applied. In the present invention, an auxiliary self-supervised operation is added with minimal changes to the discriminator without modifying the constructor. This means that the ArrorGAN framework can be easily applied to other video-GANs.

도 8c는 ArrowGAN의 정성적 결과를 나타낸다. 도 8c의 (a)는 종래의 GAN 학습 결과를 나타내고, 도 8c의 (b)는 ArrorGAN 프레임워크를 적용한 GAN 학습 결과를 나타낸다. 도 8c의 (b)에서는 특히, 사지(four limbs) 또는 사물과 같은 세밀한 부분에서 개선된 것을 관찰할 수 있다. 8c shows the qualitative results of ArrowGAN. Fig. 8c (a) shows the conventional GAN learning result, and Fig. 8c (b) shows the GAN learning result to which the ArrorGAN framework is applied. In (b) of FIG. 8c , it can be observed that, in particular, improvements are made in details such as four limbs or objects.

이상의 설명은 본 발명의 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명의 실시예들은 본 발명의 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical spirit of the embodiment of the present invention, and those of ordinary skill in the art to which the embodiment of the present invention pertains may modify various modifications and transformation will be possible. Accordingly, the embodiments of the present invention are not intended to limit the technical spirit of the embodiment of the present invention, but to explain, and the scope of the technical spirit of the embodiment of the present invention is not limited by these embodiments. The protection scope of the embodiment of the present invention should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present invention.

100: 영상 생성 장치
110: 입력부 120: 출력부
130: 프로세서 140: 메모리
150: 데이터 베이스
210: 벡터 획득부 220: 생성자
230: 영상 특징값 처리부 240: 영상 변환부
250: 감별자
100: image generating device
110: input unit 120: output unit
130: processor 140: memory
150: database
210: vector acquisition unit 220: constructor
230: image feature value processing unit 240: image conversion unit
250: discriminant

Claims (17)

하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 영상 생성 학습 방법에 있어서, 상기 컴퓨팅 디바이스는,
소정의 입력값 기반의 잠재 벡터를 획득하는 벡터 획득 단계;
상기 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하는 생성 처리 단계;
실제 영상에 대한 실제 영상 데이터를 획득하는 영상 획득 단계;
상기 가상 영상 데이터 및 상기 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하는 변환 단계; 및
상기 가상 영상 데이터, 상기 실제 영상 데이터, 상기 역방향 가상 영상 데이터 및 상기 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 감별 처리 단계를 수행하되,
상기 생성 처리 단계는, 상기 잠재 벡터를 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 상기 가상 영상 데이터를 생성하며, 상기 적어도 하나의 세그먼트 블록 각각은 RGB에 대한 특징값을 포함하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
In the image generation learning method performed by a computing device comprising one or more processors and a memory for storing one or more programs executed by the processor, the computing device comprising:
a vector obtaining step of obtaining a latent vector based on a predetermined input value;
a generation processing step of generating virtual image data for a virtual image by inputting the latent vector;
an image acquisition step of acquiring real image data for the real image;
a conversion step of inverting temporal characteristics of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data; and
By comparing at least two data among the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data, the image is generated by processing the classification of whether the image is authentic or not and the moving direction of the image. Perform a differential processing step to
The generating processing step generates the virtual image data including at least one segment block in which time generated based on the latent vector is continuous, and each of the at least one segment block includes a feature value for RGB. An image generation learning method in consideration of time characteristics, characterized in that.
제1항에 있어서,
상기 벡터 획득 단계는,
기 설정된 개수의 정규분포 값으로 구성된 상기 잠재 벡터를 획득하고, 상기 잠재 벡터는 랜덤으로 선정된 상기 정규분포 값 또는 기 설정된 개수의 영상 프레임 각각에서 산출된 상기 정규분포 값으로 구성되는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
According to claim 1,
The vector acquisition step is
Obtaining the latent vector composed of a preset number of normal distribution values, wherein the latent vector is composed of the randomly selected normal distribution value or the normal distribution value calculated from each of the preset number of image frames An image generation learning method considering temporal characteristics.
삭제delete 제1항에 있어서,
상기 영상 획득 단계는,
상기 실제 영상을 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 상기 실제 영상 데이터를 입력 받으며, 상기 실제 영상 데이터에 포함된 상기 세그먼트 블록의 개수는 상기 가상 영상 데이터에 포함된 세크먼트 블록의 개수와 동일한 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
According to claim 1,
The image acquisition step is
The real image data including at least one continuous segment block generated based on the real image is received, and the number of the segment blocks included in the real image data is the number of segments included in the virtual image data. An image generation learning method in consideration of time characteristics, characterized in that the number of blocks is the same.
제4항에 있어서,
상기 영상 획득 단계는,
상기 가상 영상과 무관한 상기 실제 영상에 대한 상기 실제 영상 데이터를 획득하며, 상기 실제 영상은 기 저장된 데이터베이스에서 추출되거나 네트워크 상에서 탐색된 영상의 전체 또는 일부에서 수집된 영상인 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
5. The method of claim 4,
The image acquisition step is
Acquire the real image data for the real image independent of the virtual image, wherein the real image is an image extracted from a pre-stored database or collected from all or a part of an image searched on a network. Considered image generation learning method.
제4항에 있어서,
상기 변환 단계는,
상기 실제 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 상기 역방향 실제 영상 데이터를 생성하는 제1 변환 단계; 및
상기 가상 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 상기 역방향 가상 영상 데이터를 생성하는 제2 변환 단계
를 포함하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
5. The method of claim 4,
The conversion step is
a first conversion step of generating the reverse real image data by inverting a processing order based on a temporal characteristic of the real image data; and
A second transformation step of generating the reverse virtual image data by inverting a processing order based on the temporal characteristics of the virtual image data
An image generation learning method in consideration of the temporal characteristics, characterized in that it comprises a.
제6항에 있어서,
상기 제1 변환 단계는,
상기 실제 영상 데이터에 포함된 상기 적어도 하나의 세그먼트 블록의 순서를 역순으로 변환하여 상기 역방향 실제 영상 데이터를 생성하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
7. The method of claim 6,
The first conversion step is
An image generation and learning method in consideration of temporal characteristics, characterized in that the reverse real image data is generated by converting the order of the at least one segment block included in the real image data in a reverse order.
제6항에 있어서,
상기 제2 변환 단계는,
상기 가상 영상 데이터에 포함된 상기 적어도 하나의 세그먼트 블록의 순서를 역순으로 변환하여 상기 역방향 가상 영상 데이터를 생성하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
7. The method of claim 6,
The second conversion step is
An image generation and learning method in consideration of temporal characteristics, characterized in that the reverse virtual image data is generated by converting the order of the at least one segment block included in the virtual image data in a reverse order.
제4항에 있어서,
상기 감별 처리 단계는,
상기 가상 영상 데이터, 상기 실제 영상 데이터, 상기 역방향 가상 영상 데이터 및 상기 역방향 실제 영상 데이터 각각에 대한 특징값을 추출하는 특징값 추출 단계;
상기 가상 영상 데이터 및 상기 실제 영상 데이터에 대한 특징값을 이용하여 상기 가상 영상의 진위 여부에 대한 분류를 처리하는 제1 감별 단계; 및
상기 가상 영상 데이터 및 상기 역방향 가상 영상 데이터에 대한 특징값을 이용하여 영상의 진행 방향에 대한 분류를 처리하는 제2 감별 단계
를 포함하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
5. The method of claim 4,
The discrimination processing step is
a feature value extraction step of extracting a feature value for each of the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data;
a first discrimination step of classifying whether the virtual image is authentic or not by using feature values of the virtual image data and the real image data; and
A second discrimination step of processing classification of the moving direction of an image by using the feature values of the virtual image data and the backward virtual image data
An image generation learning method in consideration of the temporal characteristics, characterized in that it comprises a.
제9항에 있어서,
상기 제1 감별 단계 및 상기 제2 감별 단계는,
서로 공유된 적어도 하나의 컨볼루션 레이어를 통과한 상기 특징값을 기반으로 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
10. The method of claim 9,
The first differentiation step and the second differentiation step include:
An image creation and learning method in consideration of temporal characteristics, characterized in that classification of each of the image's authenticity and the moving direction of the image is processed based on the feature value that has passed through at least one convolutional layer shared with each other.
제9항에 있어서,
상기 제1 감별 단계는,
상기 가상 영상 데이터 및 상기 실제 영상 데이터의 특징값을 비교하여 상기 가상 영상의 진위 여부를 학습한 제1 학습 결과를 출력하되,
상기 제1 감별 단계는, 상기 제1 학습 결과에 근거하여 상기 생성 처리 단계로 피드백 정보를 전달하며, 상기 생성 처리 단계에서 상기 가상 영상이 참 신호에 해당하는 가상 영상이 생성될 때까지 반복하여 상기 가상 영상의 진위 여부를 학습하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
10. The method of claim 9,
The first discrimination step is
Comparing the feature values of the virtual image data and the real image data, outputting a first learning result obtained by learning whether the virtual image is authentic or not,
In the first discrimination step, feedback information is transmitted to the generation processing step based on the first learning result, and in the generation processing step, the virtual image is repeated until a virtual image corresponding to a true signal is generated. An image creation and learning method in consideration of time characteristics, characterized in that learning whether a virtual image is authentic or not.
제9항에 있어서,
상기 제1 감별 단계는,
상기 가상 영상 데이터 및 상기 실제 영상 데이터의 특징값을 비교하여 상기 가상 영상의 진위 여부를 학습한 제1 학습 결과를 출력하고,
상기 제2 감별 단계는, 상기 가상 영상 데이터 및 상기 역방향 가상 영상 데이터의 특징값을 비교하여 상기 가상 영상의 진행 방향을 학습한 제2 학습 결과를 출력하되,
상기 제1 학습 결과 및 상기 제2 학습 결과를 기반으로 피드백 정보를 산출하고, 상기 피드백 정보를 이용하여 상기 감별 처리 단계에서 상기 가상 영상 데이터 및 상기 실제 영상 데이터를 비교하여 상기 가상 영상이 참 신호에 해당할 때까지 반복하여 상기 영상의 진위 여부를 학습하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.
10. The method of claim 9,
The first discrimination step is
outputting a first learning result obtained by learning whether the virtual image is authentic or not by comparing the feature values of the virtual image data and the real image data;
The second discrimination step outputs a second learning result obtained by learning the moving direction of the virtual image by comparing the feature values of the virtual image data and the reverse virtual image data,
Feedback information is calculated based on the first learning result and the second learning result, and the virtual image data and the real image data are compared in the discrimination processing step using the feedback information to determine if the virtual image is a true signal. An image creation and learning method in consideration of a temporal characteristic, characterized in that it learns whether the image is authentic or not by iteratively until it corresponds.
시간 특성을 고려하여 영상을 생성하는 장치로서,
하나 이상의 프로세서; 및
상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서,
소정의 입력값 기반의 잠재 벡터를 획득하는 벡터 획득 단계;
상기 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하는 생성 처리 단계;
실제 영상에 대한 실제 영상 데이터를 획득하는 영상 획득 단계;
상기 가상 영상 데이터 및 상기 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하는 변환 단계; 및
상기 가상 영상 데이터, 상기 실제 영상 데이터, 상기 역방향 가상 영상 데이터 및 상기 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 감별 처리 단계를 포함하는 동작들을 수행하게 하되,
상기 생성 처리 단계는, 상기 잠재 벡터를 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 상기 가상 영상 데이터를 생성하며, 상기 적어도 하나의 세그먼트 블록 각각은 RGB에 대한 특징값을 포함하는 것을 특징으로 하는 영상 생성 장치.
An apparatus for generating an image in consideration of time characteristics, comprising:
one or more processors; and
a memory storing one or more programs executed by the processor, wherein the programs, when executed by the one or more processors, in the one or more processors;
a vector obtaining step of obtaining a latent vector based on a predetermined input value;
a generation processing step of generating virtual image data for a virtual image by inputting the latent vector;
an image acquisition step of acquiring real image data for the real image;
a conversion step of inverting temporal characteristics of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data; and
By comparing at least two data among the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data, the image is generated by processing the classification of whether the image is authentic or not and the direction of the image to perform operations including a differential processing step of
The generating processing step generates the virtual image data including at least one segment block in which time generated based on the latent vector is continuous, and each of the at least one segment block includes a feature value for RGB. An image generating device, characterized in that.
삭제delete 제13항에 있어서,
상기 영상 획득 단계는,
상기 실제 영상을 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 상기 실제 영상 데이터를 입력 받으며, 상기 실제 영상 데이터에 포함된 상기 세그먼트 블록의 개수는 상기 가상 영상 데이터에 포함된 세크먼트 블록의 개수와 동일한 것을 특징으로 하는 영상 생성 장치.
14. The method of claim 13,
The image acquisition step is
The real image data including at least one continuous segment block generated based on the real image is received, and the number of the segment blocks included in the real image data is the number of segments included in the virtual image data. An image generating apparatus, characterized in that the same as the number of blocks.
제15항에 있어서,
상기 변환 단계는,
상기 실제 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 상기 역방향 실제 영상 데이터를 생성하는 제1 변환 단계; 및
상기 가상 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 상기 역방향 가상 영상 데이터를 생성하는 제2 변환 단계
를 포함하는 것을 특징으로 하는 영상 생성 장치.
16. The method of claim 15,
The conversion step is
a first conversion step of generating the reverse real image data by inverting a processing order based on a temporal characteristic of the real image data; and
A second transformation step of generating the reverse virtual image data by inverting a processing order based on the temporal characteristics of the virtual image data
An image generating apparatus comprising a.
삭제delete
KR1020200010870A 2020-01-30 2020-01-30 Method and Apparatus for Generating Videos with The Arrow of Time KR102279772B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200010870A KR102279772B1 (en) 2020-01-30 2020-01-30 Method and Apparatus for Generating Videos with The Arrow of Time

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200010870A KR102279772B1 (en) 2020-01-30 2020-01-30 Method and Apparatus for Generating Videos with The Arrow of Time

Publications (1)

Publication Number Publication Date
KR102279772B1 true KR102279772B1 (en) 2021-07-19

Family

ID=77126011

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200010870A KR102279772B1 (en) 2020-01-30 2020-01-30 Method and Apparatus for Generating Videos with The Arrow of Time

Country Status (1)

Country Link
KR (1) KR102279772B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023044146A1 (en) * 2021-09-20 2023-03-23 Schlumberger Technology Corporation Rapid and realistic three-dimensional stratigraphic model generator conditioned on reference well log data
US12106330B1 (en) * 2020-11-11 2024-10-01 Alberto Betella Adaptive text-to-speech synthesis for dynamic advertising insertion in podcasts and broadcasts

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000341602A (en) * 1999-05-31 2000-12-08 Matsushita Electric Ind Co Ltd Video signal processing circuit, device and method for displaying video
JP2019219914A (en) * 2018-06-20 2019-12-26 株式会社 ディー・エヌ・エー Image generation device, image generator, image discriminator, image generation program, and image generation method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000341602A (en) * 1999-05-31 2000-12-08 Matsushita Electric Ind Co Ltd Video signal processing circuit, device and method for displaying video
JP2019219914A (en) * 2018-06-20 2019-12-26 株式会社 ディー・エヌ・エー Image generation device, image generator, image discriminator, image generation program, and image generation method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12106330B1 (en) * 2020-11-11 2024-10-01 Alberto Betella Adaptive text-to-speech synthesis for dynamic advertising insertion in podcasts and broadcasts
WO2023044146A1 (en) * 2021-09-20 2023-03-23 Schlumberger Technology Corporation Rapid and realistic three-dimensional stratigraphic model generator conditioned on reference well log data

Similar Documents

Publication Publication Date Title
Sun et al. Learning layout and style reconfigurable gans for controllable image synthesis
Sun et al. A visual attention based ROI detection method for facial expression recognition
Ferreira et al. Learning to dance: A graph convolutional adversarial network to generate realistic dance motions from audio
Zhu et al. Continuous gesture segmentation and recognition using 3DCNN and convolutional LSTM
Yuan et al. Temporal action localization with pyramid of score distribution features
Kalsum et al. Emotion recognition from facial expressions using hybrid feature descriptors
CN104616316B (en) Personage's Activity recognition method based on threshold matrix and Fusion Features vision word
James et al. Emotion based music recommendation system
Gunawardena et al. Real-time automated video highlight generation with dual-stream hierarchical growing self-organizing maps
Khalid et al. DFGNN: An interpretable and generalized graph neural network for deepfakes detection
Cai et al. Glitch in the matrix: A large scale benchmark for content driven audio–visual forgery detection and localization
Prabhu et al. Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism.
KR102279772B1 (en) Method and Apparatus for Generating Videos with The Arrow of Time
Yu et al. Abnormal event detection using adversarial predictive coding for motion and appearance
Zhang et al. A survey on multimodal-guided visual content synthesis
Mohammad et al. Searching surveillance video contents using convolutional neural network
Yao [Retracted] Application of Higher Education Management in Colleges and Universities by Deep Learning
Wang et al. GAN-STD: small target detection based on generative adversarial network
Robert The Role of Deep Learning in Computer Vision
Karavarsamis et al. Classifying Salsa dance steps from skeletal poses
Saleknia et al. Efficient still image action recognition by the combination of ensemble learning and knowledge distillation
Xu et al. Emotion recognition research based on integration of facial expression and voice
Dandekar et al. Verification of family relation from parents and child facial images
Crispim et al. Verifying kinship from rgb-d face data
You et al. A novel trajectory-vlad based action recognition algorithm for video analysis

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant