KR102095097B1 - 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법 - Google Patents

생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법 Download PDF

Info

Publication number
KR102095097B1
KR102095097B1 KR1020180010817A KR20180010817A KR102095097B1 KR 102095097 B1 KR102095097 B1 KR 102095097B1 KR 1020180010817 A KR1020180010817 A KR 1020180010817A KR 20180010817 A KR20180010817 A KR 20180010817A KR 102095097 B1 KR102095097 B1 KR 102095097B1
Authority
KR
South Korea
Prior art keywords
video sequence
dynamic
appearance
video data
dynamic characteristic
Prior art date
Application number
KR1020180010817A
Other languages
English (en)
Other versions
KR20190091806A (ko
Inventor
노용만
위삼 자랄 알하즈 바다르
구건모
이상민
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020180010817A priority Critical patent/KR102095097B1/ko
Publication of KR20190091806A publication Critical patent/KR20190091806A/ko
Application granted granted Critical
Publication of KR102095097B1 publication Critical patent/KR102095097B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • G06K9/00221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은 생성적 적대 학습(generative adversarial learning)을 기반으로 비디오 시퀀스를 생성하는 동적 이동 생성적 적대 네트워크(Dynamics Transfer GAN)를 이용한 비디오 시퀀스 생성 시스템 및 그 방법에 관한 것으로, 소스 비디오 데이터의 동적 특성과 대상 이미지 데이터의 외형(공간적 구조)을 이용하여 가변 길이의 비디오 시퀀스를 생성하고, 2개의 판별부를 포함하는 판별기(discriminator) 네트워크를 이용하여 비디오 시퀀스의 공간적 및 시간적 일관성을 판별할 수 있다.

Description

생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법{VIDEO SEQUENCES GENERATING SYSTEM USING GENERATIVE ADVERSARIAL NETWORKS AND THE METHOD THEREOF}
본 발명은 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 생성적 적대 학습(generative adversarial learning)을 기반으로 비디오 시퀀스를 생성하는 동적 이동 생성적 적대 네트워크(Dynamics Transfer GAN)를 이용한 시스템 및 그 방법에 관한 것이다.
최근 생성적 모델(generative models)의 진보는 이미지 합성(synthesis) 연구에 영향을 미쳤다. 생성적 모델, 특히 생성적 적대 네트워크(Generative Adversarial Network, GAN)는 랜덤 분포로부터 이미지를 생성하거나, 프라이밍(priming) 이미지를 합성 이미지로 비선형 변환하여 이미지를 합성하거나, 합성 이미지를 소스 이미지 도메인에서 다른 도메인으로 이동시킨다.
이로 인해, 비디오 시퀀스를 생성하기 위한 생성적 모델의 기능을 확장하려는 연구가 진행되고 있다. 그러나, 비디오 시퀀스를 생성하기 위해서는, 생성적 모델이 장면(scene) 모션을 구동하는 동적 특성(dynamics)뿐 아니라, 장면의 공간 구조(외형)를 이해해야 한다. 또한, 생성적 모델은 가변 시퀀스 길이를 가지는 시간 변화를 재구성할 수 있어야 한다.
다만, 대부분의 경우, 동적 특성은 비강체(non­rigid)이거나 공간 구조의 모양 변형을 일으킬 수 있으므로, 전술한 연구는 비디오 생성을 위한 생성적 모델의 효율성을 저해할 수 있다는 한계가 존재하였다.
이러한 한계를 극복하기 위해, 일부 연구는 생성된 비디오 시퀀스의 미래 프레임을 예측하기 위해 3D 컨볼루션과 순환신경망(recurrent neural networks; RNN) 및 컨볼루션 LSTM(Long Short­Term Memory)의 조합에 대한 연구를 진행하였으나, 미래의 몇 프레임을 예측하는 것은 비디오 생성과는 다른 조건부 이미지 생성 문제로 간주되었다.
C. Vondrick et al.는 장면 동적 특성을 사용하여 비디오를 생성하는 GAN에 대한 확장을 제안하였다. 이 때, 생성기는 장면을 전경과 배경의 조합으로 모델링하는 두 개의 스트림으로 구성되며, 3D 컨볼루션은 생성된 시퀀스를 검토하는 시공간 판별기 역할을 수행하는데 사용된다.
M. Saito et al.는 비슷한 2개의 스트림 생성기 중 하나인 시공간 판별기 접근법을 제안하였고, S. Tulyakov et al.는 입력 분포에 대한 샘플링 절차를 내용 부분 공간과 동작 부분 공간의 샘플로 분리하여 가변 길이 시퀀스를 생성하는 과정을 제안하였다.
다만, C. Vondrick et al. 및 M. Saito et al.는 가변 길이 비디오 시퀀스를 모델할 수 없으며, 길이가 긴 시퀀스를 생성할 수 없다는 문제점이 존재하였다.
나아가, C. Vondrick et al., M. Saito et al. 및 S. Tulyakov et al.는 생성적 적대 네트워크(GAN)가 비디오를 생성할 수 있게끔 확장된 구조를 제안하였으나, 시공간 판별기는 고정된 크기의 3D 컨볼루션을 사용하여 수행되었으므로, 생성된 비디오의 시공간적 일관성이 고정된 작은 시퀀스 크기에서 제한적으로 검증되어야 한다는 한계가 존재하였다. 또한, 동적 특성은 시공간 인코딩 과정에서 공간적 구조와 결합되므로, 지정된 특정 공간적 구조(외형)에 적용되지 못한다는 한계가 존재하였다.
C. Vondrick, H. Pirsiavash, and A. Torralba. Generating videos with scene dynamics. In Advances In Neural Information Processing Systems, pages 613­621, 2016. M. Saito, E. Matsumoto, and S. Saito. Temporal generative adversarial nets with singular value clipping. In IEEE International Conference on Computer Vision (ICCV), pages 2830­2839, 2017. S. Tulyakov, M.­Y. Liu, X. Yang, and J. Kautz. Mocogan: Decomposing motion and content for video generation. arXiv preprint arXiv:1707.04993, 2017.
본 발명의 목적은 소스 비디오 데이터의 동적 특성과 대상 이미지 데이터의 외형(공간적 구조)을 이용하여 가변 길이의 비디오 시퀀스를 생성할 수 있는 기술을 제공하고자 한다.
또한, 본 발명의 목적은 소스 비디오 데이터의 외형을 억제하고, 대상 이미지 데이터에 부과되기 전에 소스 비디오 데이터의 동적 특성만을 획득하여 대상 이미지 데이터의 외형에 적용시킴으로써, 대상 이미지 데이터의 공간적 구조를 보존할 수 있는 기술을 제공하고자 한다.
또한, 본 발명의 목적은 2개의 판별부를 포함하는 판별기(discriminator) 네트워크를 이용하여 비디오 시퀀스의 공간적 및 시간적 일관성을 판별할 수 있는 기술을 제공하고자 한다.
또한, 본 발명의 목적은 생성기 네트워크와 판별기 네트워크를 교대로 적대적 학습하며, 결과적으로 생성기 네트워크를 이용하여 품질이 향상된 최종 비디오 시퀀스를 생성할 수 있는 기술을 제공하고자 한다.
본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템은 소스 비디오 데이터에서, 동적 특성 인코더를 통해 시간 동적 특성이 인코딩된 소스 비디오 데이터에 대한 외형 억압 동적 특성을 특정 채널에 삽입하는 동적 채널 임베디드부, 대상 이미지 데이터의 외형과 상기 임베디드된 특정 채널을 결합하여 가변 길이의 비디오 시퀀스를 생성하는 생성부 및 상기 소스 비디오 데이터와 상기 비디오 시퀀스 사이의 프레임 정확도를 구별하고, 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성과 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 판별부를 포함한다.
상기 동적 채널 임베디드부는 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 상기 특정 채널에 삽입하여 시간 T에서의 상기 소스 비디오 데이터에 대한 외형과 외형 억압 동적 특성을 결합할 수 있다.
상기 동적 채널 임베디드부는 드롭아웃(dropout)을 이용하여 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성에 노이즈를 생성하는 것이 특징일 수 있다.
상기 생성부는 유­넷 네트워크(U­net Network) 구조를 사용하여 상기 대상 이미지 데이터의 외형을 보존할 수 있다.
상기 생성부는 상기 판별부를 통해 판별되는 상기 비디오 시퀀스에 대한 공간적 및 시간적 일관성에 기초하여 최종 비디오 시퀀스를 생성할 수 있다.
상기 판별부는 상기 소스 비디오 데이터와 상기 비디오 시퀀스 사이의 프레임 정확도를 구별하는 공간 판별부 및 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성과 상기 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 동적 판별부를 포함할 수 있다.
상기 공간 판별부는 상기 소스 비디오 데이터의 프레임과 상기 비디오 시퀀스의 프레임을 비교하여 상기 비디오 시퀀스의 프레임이 실제 프레임 또는 생성된(가짜) 프레임인지 구별할 수 있다.
상기 동적 판별부는 상기 동적 특성 인코더를 통해 획득되는 상기 비디오 시퀀스에 대한 외형 억압 동적 특성과 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 비교하여 상기 비디오 시퀀스에 대한 외형 억압 동적 특성이 현실 동적 특성 또는 생성된(가짜) 동적 특성인지 구별할 수 있다.
상기 동적 판별부는 상기 비디오 시퀀스의 가변 길이에 영향을 받지 않기 위해, 시간 T까지의 상기 비디오 시퀀스에 대한 외형 억압 동적 특성만을 이용하여 동적 특성 일관성을 구별할 수 있다.
상기 동적 특성 인코더는 상기 소스 비디오 데이터 또는 상기 비디오 시퀀스의 제1 프레임을 복제하여 정적 시퀀스를 생성하고, 순환신경망(recurrent neural networks; RNN)를 이용하여 상기 소스 비디오 데이터 또는 상기 비디오 시퀀스의 잠재 시공간 특징 및 상기 정적 시퀀스의 잠재 시공간 특징을 획득하며, 상기 소스 비디오 데이터 또는 상기 비디오 시퀀스의 잠재 시공간 특징에서 상기 정적 시퀀스의 잠재 시공간 특징을 제거하여 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성 또는 상기 비디오 시퀀스에 대한 외형 억압 동적 특성을 제공할 수 있다.
본 발명의 다른 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템은 소스 비디오 데이터의 동적 특성과 대상 이미지 데이터의 외형을 이용하여 가변 길이의 비디오 시퀀스를 생성하고, 판별 결과에 기초하여 최종 비디오 시퀀스를 생성하는 생성기 네트워크 및 상기 소스 비디오 데이터와 상기 비디오 시퀀스 사이의 프레임 정확도를 구별하고, 소스 비디오 데이터에 대한 외형 억압 동적 특성과 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 판별기 네트워크를 포함하되, 상기 생성기 네트워크 및 상기 판별기 네트워크는 교대로 수행되는 것을 특징으로 한다.
상기 생성기 네트워크는 상기 소스 비디오 데이터에서, 동적 특성 인코더를 통해 시간 동적 특성이 인코딩된 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 특정 채널에 삽입하는 동적 채널 임베디드부 및 상기 대상 이미지 데이터의 외형과 상기 임베디드된 특정 채널을 결합하여 가변 길이의 상기 비디오 시퀀스를 생성하는 생성부를 포함할 수 있다.
상기 판별기 네트워크는 상기 소스 비디오 데이터와 상기 비디오 시퀀스 사이의 프레임 정확도를 구별하는 공간 판별부 및 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성과 상기 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 동적 판별부를 포함할 수 있다.
본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템의 동작 방법에 있어서, 동적 특성 인코더를 통해 시간 동적 특성이 인코딩된 소스 비디오 데이터에 대한 외형 억압 동적 특성을 특정 채널에 삽입하는 단계, 대상 이미지 데이터의 외형과 상기 임베디드된 특정 채널을 결합하여 가변 길이의 비디오 시퀀스를 생성하는 단계, 상기 소스 비디오 데이터와 상기 비디오 시퀀스 사이의 프레임 정확도를 구별하고, 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성과 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 단계 및 구별 결과에 기초하여, 상기 비디오 시퀀스에 대한 공간적 및 시간적 일관성에 기초하여 최종 비디오 시퀀스를 출력하는 단계를 포함한다.
상기 소스 비디오 데이터를 특정 채널에 삽입하는 단계는 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 상기 특정 채널에 삽입하여 시간 T에서의 상기 소스 비디오 데이터에 대한 외형과 외형 억압 동적 특성을 결합할 수 있다.
상기 가변 길이의 비디오 시퀀스를 생성하는 단계는 유­넷 네트워크(U­net Network) 구조를 사용하여 상기 대상 이미지 데이터의 외형을 보존할 수 있다.
상기 프레임의 정확도를 구별하고, 동적 특성 일관성을 구별하는 단계는 상기 소스 비디오 데이터의 프레임과 상기 비디오 시퀀스의 프레임을 비교하여 상기 비디오 시퀀스의 프레임이 실제 프레임 또는 생성된(가짜) 프레임인지 구별하는 단계를 포함할 수 있다.
상기 프레임의 정확도를 구별하고, 동적 특성 일관성을 구별하는 단계는 상기 동적 특성 인코더를 통해 획득되는 상기 비디오 시퀀스에 대한 외형 억압 동적 특성과 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 비교하여 상기 비디오 시퀀스에 대한 외형 억압 동적 특성이 현실 동적 특성 또는 생성된(가짜) 동적 특성인지 구별하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 소스 비디오 데이터의 동적 특성과 대상 이미지 데이터의 외형(공간적 구조)을 이용하여 가변 길이의 비디오 시퀀스를 생성할 수 있다.
또한, 본 발명의 실시예에 따르면, 소스 비디오 데이터의 외형을 억제하고, 대상 이미지 데이터에 부과되기 전에 소스 비디오 데이터의 동적 특성만을 획득하여 대상 이미지 데이터의 외형에 적용시킴으로써, 대상 이미지 데이터의 공간적 구조를 보존할 수 있다.
또한, 본 발명의 실시예에 따르면, 2개의 판별부를 포함하는 판별기(discriminator) 네트워크를 이용하여 비디오 시퀀스의 공간적 및 시간적 일관성을 판별할 수 있다.
또한, 본 발명의 실시예에 따르면, 생성기 네트워크와 판별기 네트워크를 교대로 적대적 학습하며, 결과적으로 생성기 네트워크를 이용하여 품질이 향상된 최종 비디오 시퀀스를 생성할 수 있다.
도 1은 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템의 전체 과정을 설명하기 위해 도시한 것이다.
도 2는 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템의 세부 구성을 도시한 것이다.
도 3은 본 발명의 실시예에 따른 동적 특성 인코더의 동작을 설명하기 위해 도시한 것이다.
도 4는 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 방법의 흐름도를 도시한 것이다.
이하, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
또한, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 시청자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 대상 이미지 데이터에 소스 비디오 데이터에서의 동적 특성(dynamics)을 적용하여 비디오 시퀀스를 생성하는 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법에 관한 것이다.
제안된 방법의 주요 공헌은 다음과 같다.
1. 소스 비디오 데이터에서 동적 특성을 획득하는 동안 대상 이미지 데이터의 공간적 구조(외형)을 유지한다. 이를 위해, 소스 비디오 데이터의 시간적 동적 특성을 유지하면서 소스 비디오 데이터의 공간적 외형을 억제하는 새로운 외형 억제 기능을 제안한다.
2. 비디오 시퀀스의 프레임 정확도를 판별하는 공간 판별부 및 비디오 시퀀스의 무결성을 판별하는 동적 판별부를 사용하여 시퀀스 길이에 대한 제한이 없는 가변 길이의 비디오 시퀀스를 생성한다.
3. 소스 비디오 데이터에 대한 동적 특성(dynamics)의 시각화를 제공한다.
4. 최종적 테스트 시, 생성기 네트워크에 입력되는 소스 비디오 데이터와 대상 이미지 데이터를 이용하여 대상 이미지 데이터에 소스 비디오 데이터의 동적 특성을 적용하여 비디오 시퀀스를 생성한다.
도 1은 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템의 전체 과정을 설명하기 위해 도시한 것이다.
도 1을 참조하면, 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템은 대상 이미지 데이터(Target image) 및 소스 비디오 데이터(Source video sequence data)를 동적 이동 생성적 적대 네트워크(Dynamics Transfer GAN)에 적용하여 가변 길이의 비디오 시퀀스(Generated video sequence)를 생성한다.
본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템은 도 1에 도시된 바와 같이, 소스 비디오 데이터의 외형(Appearance)을 억제하고, 소스 비디오 데이터의 동적 특성(Source video sequence dynamics)을 대상 이미지 데이터의 외형(Target image appearance)에 적용하여 최종 비디오 시퀀스(Generated video sequence)를 생성한다.
이로 인해, 본 발명은 공간적 및 시간적으로 일관된 비디오 시퀀스를 생성하면서 대상 이미지 데이터의 외형(공간적 구조)을 보존하는 효과를 제공한다.
도 2는 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템의 세부 구성을 도시한 것이다.
도 2를 참조하면, 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템은 소스 비디오 데이터의 동적 특성(dynamics)과 대상 이미지 데이터의 외형(공간적 구조)을 이용하여 비디오 시퀀스를 생성한다.
이를 위해, 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템(200)은 동적 채널 임베디드부(220), 생성부(230) 및 판별부(240)를 포함한다.
동적 채널 임베디드부(220)는 소스 비디오 데이터(201,
Figure 112018010109341-pat00001
)에서, 제1 동적 특성 인코더(211)를 통해 시간 동적 특성이 인코딩된 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성을 특정 채널에 삽입한다.
예를 들면, 소스 비디오 데이터(201)는 단수 또는 복수의 사용자들 각각의 얼굴 제스처 영상일 수 있으며, 얼굴 제스처뿐만 아니라, 환경, 사물, 인물 등에 대해 시간의 흐름에 따라 획득된 영상 데이터일 수 있다. 또한, 대상 이미지 데이터(202,
Figure 112018010109341-pat00002
)는 단수 또는 복수의 사용자들 각각의 얼굴 제스처 이미지일 수 있으며, 얼굴 제스처뿐만 아니라, 환경, 사물, 인물 등에 대해 획득된 이미지 데이터일 수 있다.
도 2를 참조하면, 제1 동적 특성 인코더(211)는 순환신경망(recurrent neural networks; RNN)을 이용하여 입력되는 소스 비디오 데이터(201,
Figure 112018010109341-pat00003
)에 대한 외형 억압 동적 특성(appearance suppressed dynamics feature,
Figure 112018010109341-pat00004
)을 제공할 수 있다. 이 때, 제1 동적 특성 인코더(211)는 사전 트레이닝된 순환신경망(RNN)에서 소스 비디오 데이터(201)의 공간 인코딩 효과를 제거하여 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성을 추출할 수 있다.
이하에서는 도 3을 참조하여 본 발명의 실시예에 따른 동적 특성 인코더에 대해 보다 상세히 설명하고자 한다.
도 3은 본 발명의 실시예에 따른 동적 특성 인코더의 동작을 설명하기 위해 도시한 것이다.
이 때, 동적 특성 인코더(210)는 도 2에 도시된 바와 같이, 소스 비디오 데이터에 대한 외형 억압 동적 특성을 제공하는 제1 동적 특성 인코더(211) 및 비디오 시퀀스에 대한 외형 억압 동적 특성을 제공하는 제2 동적 특성 인코더(212)를 나타내며, 동일한 동작을 수행한다.
도 3을 참조하면, 동적 특성 인코더(210)는 소스 비디오 데이터(Source video sequence data,
Figure 112018010109341-pat00005
)에서, 소스 비디오 데이터의 제1 프레임을 복제하여 정적 시퀀스(Static sequence, with replicas of the first frame,
Figure 112018010109341-pat00006
)를 생성할 수 있다. 이 때, 소스 비디오 데이터(
Figure 112018010109341-pat00007
) 및 정적 시퀀스(
Figure 112018010109341-pat00008
)는 소스 비디오 데이터의 잠재 시공간 특징(Source video spatio­temporal features,
Figure 112018010109341-pat00009
) 및 정적 시퀀스의 잠재 시공간 특징(Static sequence spatio­temporal features,
Figure 112018010109341-pat00010
)을 각각 생성하기 위해 사전 트레이닝된 순환신경망(recurrent neural networks; RNN, 213)에 공급될 수 있다.
이 때, 소스 비디오 데이터(
Figure 112018010109341-pat00011
)는 복수의 프레임(또는 이미지,
Figure 112018010109341-pat00012
)의 결합을 나타내며, 정적 시퀀스(
Figure 112018010109341-pat00013
)는 소스 비디오 데이터(
Figure 112018010109341-pat00014
)의 제1 프레임(
Figure 112018010109341-pat00015
)을 복제하여 생성될 수 있다.
일 예로, 순환신경망(RNN)은 사전 트레이닝된 CNN­LSTM(Pre­trained CNN­LSTM, 213)일 수 있으며, CNN(Convolutional Neural Network; 컨볼루션 신경망)과 LSTM(Long Short­Term Memory)를 이용할 수 있다.
정적 시퀀스(
Figure 112018010109341-pat00016
)는 소스 비디오 데이터(
Figure 112018010109341-pat00017
)와 동일한 프레임의 복제본이므로, CNN­LSTM(213)은 시간적 특징이 아닌 잠재 시공간 특징(
Figure 112018010109341-pat00018
)의 공간적 외형만 인코딩할 수 있다.
이에 따라서, 동적 특성 인코더(210)는 소스 비디오 데이터의 잠재 시공간 특징(
Figure 112018010109341-pat00019
)에서 정적 시퀀스의 잠재 시공간 특징(
Figure 112018010109341-pat00020
)을 감산(subtraction)함으로써, 소스 비디오 데이터(201,
Figure 112018010109341-pat00021
)의 공간적 외형을 억제하고, 소스 비디오 데이터(201)의 동적 특성(dynamics)만을 추출하게 된다. 즉, 동적 특성 인코더(210)는 하기의 [수식 1]을 통해 소스 비디오 데이터에 대한 외형 억압 동적 특성(appearance suppressed dynamics feature,
Figure 112018010109341-pat00022
)을 산출할 수 있다.
[수식 1]
Figure 112018010109341-pat00023
다만, 도 3에서는 도 2에 도시된 제1 동적 특성 인코더(211)와 같이, 소스 비디오 데이터(
Figure 112018010109341-pat00024
)를 이용하여 소스 비디오 데이터에 대한 외형 억압 동적 특성(
Figure 112018010109341-pat00025
)을 획득하는 동작을 예를 설명하였으나, 도 2에 도시된 제2 동적 특성 인코더(212)와 같이, 비디오 시퀀스(
Figure 112018010109341-pat00026
)를 이용하여 비디오 시퀀스에 대한 외형 억압 동적 특성(
Figure 112018010109341-pat00027
)을 획득할 수도 있으며, 과정은 동일하다.
다시 도 2를 참조하면, 동적 채널 임베디드부(220)는 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성(
Figure 112018010109341-pat00028
)을 특정 채널에 삽입(
Figure 112018010109341-pat00029
)하여 시간 T에서의 소스 비디오 데이터(201)에 대한 외형과 외형 억압 동적 특성을 결합할 수 있다.
이 때, 동적 채널 임베디드부(220)는 대상 이미지 데이터(202)에 랜덤 노이즈를 추가하는 대신에, 복수의 프레임(또는 레이어, layer)에 적용되는 드롭아웃(dropout)을 이용하여 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성에 노이즈를 생성할 수 있다.
생성부(230)는 대상 이미지 데이터(202)의 외형과 임베디드된 특정 채널을 결합하여 가변 길이의 비디오 시퀀스(203)를 생성한다.
이 때, 생성부(230)는 유­넷 네트워크(U­net Network) 구조일 수 있다. 생성부(230)는 유­넷 네트워크 구조를 사용하여 대상 이미지 데이터(202)의 외형을 보존할 수 있으며, 동적 채널 임베디드부(220) 및 생성부(230)를 포함하는 생성기 네트워크의 세부 사항을 보존할 수도 있다.
생성부(230)는 대상 이미지 데이터(202)의 외형(
Figure 112018010109341-pat00030
)과 임베디드된 특정 채널(
Figure 112018010109341-pat00031
)을 결합하여 가변 길이의 비디오 시퀀스(203, Generated video sequence,
Figure 112018010109341-pat00032
)를 생성할 수 있다. 이로 인해, 생성부(230)는 소스 비디오 데이터(201,
Figure 112018010109341-pat00033
)를 가변 길이의 비디오 시퀀스(203,
Figure 112018010109341-pat00034
)로 생성할 수 있다.
나아가, 생성부(230)는 판별부(240)를 통해 판별되는 비디오 시퀀스(203)에 대한 공간적 및 시간적 일관성에 기초하여 최종 비디오 시퀀스를 생성할 수 있다. 보다 상세하게는, 생성부(230)는 대상 이미지 데이터(202)의 외형과 소스 비디오 데이터(201)의 동적 특성(예를 들면, 임베디드된 특정 채널)을 결합하여 비디오 시퀀스(203)를 생성하고, 생성된 비디오 시퀀스(203)는 판별부(240)를 통해 판별될 수 있다. 이후, 생성부(230)는 판별부(240)로 인한 판별 결과에 기초하여, 판별부(240)가 실제 비디오라고 착각할 수 있도록 비디오 시퀀스(203)의 세부 작업을 반복할 수 있다. 이에 따라서, 생성부(230)는 판별부(240)와의 과정 수행을 반복함으로써, 결과적으로 품질이 향상된 최종 비디오 시퀀스를 생성할 수 있다.
판별부(240)는 소스 비디오 데이터(201)와 비디오 시퀀스(203) 사이의 프레임 정확도를 구별하고, 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성과 비디오 시퀀스(203)에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별한다. 판별부(240)는 소스 비디오 데이터(201)와 비디오 시퀀스(203)를 구분할 수 있도록 학습된 것일 수 있다.
보다 구체적으로, 판별부(240)는 소스 비디오 데이터(201)와 비디오 시퀀스(203) 사이의 프레임 정확도(Rea/fake frame)를 구별하는 공간 판별부(241) 및 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성과 비디오 시퀀스(203)에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성(Real/fake sequence)을 구별하는 동적 판별부(242)를 포함할 수 있다.
공간 판별부(241)는 비디오 시퀀스(203)의 프레임에 대한 정확도를 확인하며, 소스 비디오 데이터(201)의 프레임과 비디오 시퀀스(203)의 프레임을 비교하여 비디오 시퀀스(203)의 프레임이 실제 프레임 또는 생성된(가짜) 프레임인지 구별할 수 있다.
예를 들면, 공간 판별부(241)는 컨볼루션 네트워크 스택과 출력 레이어로 구성된 구조일 수 있으며, 소스 비디오 데이터(201) 및 비디오 시퀀스(203)를 시간 T에서의 복수의 프레임으로 구분하고, 프레임에 대한 정확도를 판단하며, 프레임이 실제 프레임(소스 비디오 데이터(201)의 프레임)인지, 생성된 프레임(비디오 시퀀스(203)의 프레임)인지를 구별할 수 있다.
동적 판별부(242)는 제2 동적 특성 인코더(212)를 통해 획득되는 비디오 시퀀스(203)에 대한 외형 억압 동적 특성과, 제1 동적 특성 인코더(211)를 통해 획득되는 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성을 비교하여 비디오 시퀀스의 동적 특성이 현실 동적 특성 또는 생성된(가짜) 동적 특성인지 구별할 수 있다.
예를 들면, 제2 동적 특성 인코더(212)는 순환신경망(recurrent neural networks; RNN)을 이용하여 입력되는 비디오 시퀀스(203,
Figure 112018010109341-pat00035
)에 대한 외형 억압 동적 특성(Generated appearance suppressed dynamics feature,
Figure 112018010109341-pat00036
)를 제공할 수 있다. 이 때, 제2 동적 특성 인코더(212)는 사전 트레이닝된 순환신경망(RNN)에서 비디오 시퀀스(203)의 공간 인코딩 효과를 제거하여 비디오 시퀀스(203)에 대한 외형 억압 동적 특성을 추출할 수 있다.
도 3에서 설명된 세부 사항과 동일하게, 제2 동적 특성 인코더(212)는 CNN­LSTM(213)를 사용하여 정적 시퀀스(
Figure 112018010109341-pat00037
)로부터 생성된 정적 시퀀스의 잠재 시공간 특징(
Figure 112018010109341-pat00038
)을 획득하고, 비디오 시퀀스의 잠재 시공간 특징(
Figure 112018010109341-pat00039
)에서 정적 시퀀스의 잠재 시공간 특징(
Figure 112018010109341-pat00040
)을 감산(subtraction)함으로써, 비디오 시퀀스(203,
Figure 112018010109341-pat00041
)의 공간적 외형을 억제하고, 비디오 시퀀스(203)의 동적 특성(dynamics)만을 추출하게 된다. 즉, 제2 동적 특성 인코더(212)는 하기의 [수식 2]를 통해 비디오 시퀀스에 대한 외형 억압 동적 특성(generated appearance suppressed dynamics feature,
Figure 112018010109341-pat00042
)을 산출할 수 있다.
[수식 2]
Figure 112018010109341-pat00043
이로 인해, 동적 판별부(242)는 제2 동적 특성 인코더(212)를 통해 획득되는 비디오 시퀀스(203)에 대한 외형 억압 동적 특성과, 제1 동적 특성 인코더(211)를 통해 획득되는 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성을 비교함으로써, 비디오 시퀀스(203)에 대한 외형 억압 동적 특성이 현실 동적 특성(소스 비디오 데이터(201)의 동적 특성,
Figure 112018010109341-pat00044
)인지, 생성된 동적 특성(비디오 시퀀스(203)의 동적 특성,
Figure 112018010109341-pat00045
)인지를 구별할 수 있다.
도 2를 참조하면, 공간 판별부(241)는 비디오 시퀀스(203)를 일련의 프레임으로 검토하며, 동적 판별부(242)는 비디오 시퀀스(203)를 입력 공간에서 샘플로 검토한다. 구체적으로, 비디오 시퀀스(203)는 가변 길이를 가질 수 있다. 동적 판별부(242)가 비디오 시퀀스(203) 길이에 관계없이 전체 시퀀스를 샘플 포인트로 처리하려면, 동적 판별부(242)의 입력 크기가 시퀀스의 길이에 영향을 받지 않아야 한다. 이에 따라서, 동적 판별부(242)는 시간 T에서 비디오 시퀀스(203)의 동적 특성(
Figure 112018010109341-pat00046
)만을 이용하여 동적 특성 일관성을 구별할 수 있다. 이 때, 비디오 시퀀스(203)의 동적 특성(
Figure 112018010109341-pat00047
)은 전체 시퀀스의 동적 특성 즉, 처음부터 시간 T까지의 동적 특성(dynamics)을 나타낸다.
이로 인해, 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템(200)은 대상 이미지 데이터(202)의 현실적인 공간적 구조(외형)와 소스 비디오 데이터(201)를 모방한 시간적 동적 특성을 갖는 비디오 시퀀스(203)를 생성한다.
본 발명의 다른 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템(200)은 도 2에 도시된, 동적 채널 임베디드부(220) 및 생성부(230)를 포함하는 생성기 네트워크(미도시)와, 공간 판별부(241) 및 동적 판별부(242)를 포함하는 판별기 네트워크(미도시)를 포함한다.
생성기 네트워크는 소스 비디오 데이터(201)의 동적 특성과 대상 이미지 데이터(202)의 외형을 이용하여 가변 길이의 비디오 시퀀스(203)를 생성하고, 판별기 네트워크로 인한 판별 결과에 기초하여 최종 비디오 시퀀스를 생성한다.
이 때, 생성기 네트워크는 소스 비디오 데이터(201)에서, 제1 동적 특성 인코더(211)를 통해 시간 동적 특성이 인코딩된 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성을 특정 채널에 삽입하는 동적 채널 임베디드부(220) 및 대상 이미지 데이터(202)의 외형과 임베디드된 특정 채널을 결합하여 가변 길이의 비디오 시퀀스(203)를 생성하는 생성부(230)를 포함할 수 있다.
판별기 네트워크는 소스 비디오 데이터(201)와 비디오 시퀀스(203) 사이의 프레임 정확도를 구별하고, 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성과 비디오 시퀀스(203)에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별한다.
이 때, 판별기 네트워크는 소스 비디오 데이터(201)와 비디오 시퀀스(203) 사이의 프레임 정확도를 구별하는 공간 판별부(241) 및 소스 비디오 데이터(201)에 대한 외형 억압 동적 특성과 비디오 시퀀스(203)에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 동적 판별부(242)를 포함할 수 있다.
본 발명의 다른 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템(200)의 생성기 네트워크 및 판별기 네트워크는 교차적으로 트레이닝될 수 있다. 예를 들면, 판별기 네트워크는 손실 조건을 최대화하여 트레이닝될 수 있고, 생성기 네트워크는 판별기 네트워크 다음에 업데이트될 수 있으며, 생성적 부분이 적대 손실을 최소화하여 트레이닝될 수 있다.
본 발명의 다른 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템(200)은 생성기 네트워크에 재구성 조건을 추가하여 비디오 시퀀스의 품질을 향상시킬 수 있으며, 비디오 시퀀스에 대한 외형 억압 동적 특성에 재구성 조건을 적용시켜 시퀀스 길이에 무관하게 동적 특성(dynamics)의 일관성을 유지할 수도 있다.
도 4는 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 방법의 흐름도를 도시한 것이다.
도 4의 각 단계는 도 2에 도시된 본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템에 의해 수행된다.
도 4를 참조하면, 단계 410에서, 동적 채널 임베디드부는 동적 특성 인코더를 통해 시간 동적 특성이 인코딩된 소스 비디오 데이터에 대한 외형 억압 동적 특성을 특정 채널에 삽입한다.
단계 410은 소스 비디오 데이터에 대한 외형 억압 동적 특성을 특정 채널에 삽입하여 시간 T에서의 소스 비디오 데이터에 대한 외형과 외형 억압 동적 특성을 결합하는 단계일 수 있다.
이 때, 단계 410에서 동적 채널 임베디드부는 대상 이미지 데이터에 랜덤 노이즈를 추가하는 대신에, 복수의 프레임(또는 레이어, layer)에 적용되는 드롭아웃(dropout)을 이용하여 소스 비디오 데이터에 대한 외형 억압 동적 특성에 노이즈를 생성할 수 있다.
단계 420에서, 생성부는 대상 이미지 데이터의 외형과 임베디드된 특정 채널을 결합하여 가변 길이의 비디오 시퀀스를 생성한다.
이 때, 생성부는 유­넷 네트워크(U­net Network) 구조일 수 있으며, 단계 420은 유­넷 네트워크 구조를 이용하여, 대상 이미지 데이터의 외형을 보존하는 단계일 수 있다.
단계 430에서, 판별부는 소스 비디오 데이터와 비디오 시퀀스 사이의 프레임 정확도를 구별하고, 소스 비디오 데이터에 대한 외형 억압 동적 특성과 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별한다.
단계 430은 소스 비디오 데이터의 프레임과 비디오 시퀀스의 프레임을 비교하여 비디오 시퀀스의 프레임이 실제 프레임 또는 생성된(가짜) 프레임인지 구별하는 단계일 수 있다.
예를 들면, 상기 프레임을 구별하는 단계는 컨볼루션 네트워크 스택과 출력 레이어로 구성된 구조를 이용하여, 소스 비디오 데이터 및 비디오 시퀀스를 시간 T에서의 복수의 프레임으로 구분하고, 프레임에 대한 정확도를 판단하며, 프레임이 실제 프레임(소스 비디오 데이터의 프레임)인지, 생성된 프레임(비디오 시퀀스의 프레임)인지를 구별하는 단계일 수 있다.
또한, 단계 430은 동적 특성 인코더를 통해 획득되는 비디오 시퀀스에 대한 외형 억압 동적 특성과, 소스 비디오 데이터에 대한 외형 억압 동적 특성을 비교하여 비디오 시퀀스에 대한 외형 억압 동적 특성이 현실 동적 특성 또는 생성된(가짜) 동적 특성인지 구별하는 단계일 수 있다.
예를 들면, 상기 동적 특성을 구별하는 단계는 동적 특성 인코더를 통해 획득되는 비디오 시퀀스에 대한 외형 억압 동적 특성과, 소스 비디오 데이터에 대한 외형 억압 동적 특성을 비교함으로써, 비디오 시퀀스에 대한 외형 억압 동적 특성이 현실 동적 특성(소스 비디오 데이터의 동적 특성)인지, 생성된 동적 특성(비디오 시퀀스의 동적 특성)인지를 구별하는 단계일 수 있다.
단계 440에서, 생성부는 구별 결과에 기초하여, 비디오 시퀀스에 대한 공간적 및 시간적 일관성에 기초하여 최종 비디오 시퀀스를 출력한다. 예를 들면, 단계 430에서 판별부로 인한 판별 결과에 기초하여, 단계 440에서 생성부는 결과적으로 품질이 향상된 최종 비디오 시퀀스를 생성할 수 있다.
본 발명의 실시예에 따른 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 방법은 단계 420과 단계 430을 반복 학습함으로써, 최종적으로 단계 440을 통해 품질이 향상된 최종 비디오 시퀀스를 생성하는 것을 특징으로 한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
200: 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템
201: 소스 비디오 데이터
202: 대상 이미지 데이터
203: 비디오 시퀀스
210, 211, 212: 동적 특성 인코더
213: 트레이닝된 CNN­LSTM(또는 순환신경망(RNN))
220: 동적 채널 임베디드부
230: 생성부
241: 공간 판별부
242: 동적 판별부

Claims (19)

  1. 소스 비디오 데이터에서, 제1 동적 특성 인코더를 통해 시간 동적 특성이 인코딩된 소스 비디오 데이터에 대한 외형 억압 동적 특성을 특정 채널에 삽입하는 동적 채널 임베디드부;
    대상 이미지 데이터의 외형과 상기 임베디드된 특정 채널을 결합하여 가변 길이의 비디오 시퀀스를 생성하는 생성부; 및
    상기 소스 비디오 데이터와 상기 비디오 시퀀스 사이의 프레임 정확도를 구별하고, 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성과 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 판별부를 포함하되,
    상기 판별부는
    상기 소스 비디오 데이터와 상기 비디오 시퀀스 사이의 프레임 정확도를 구별하는 공간 판별부; 및
    상기 소스 비디오 데이터에 대한 외형 억압 동적 특성과 상기 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 동적 판별부를 포함하며,
    상기 공간 판별부는
    상기 소스 비디오 데이터 및 상기 비디오 시퀀스를 시간에서의 복수의 프레임으로 구분하여 프레임에 대한 정확도를 판단하고, 프레임이 실제 프레임(상기 소스 비디오 데이터의 프레임)인지 또는 생성된 프레임(상기 비디오 시퀀스의 프레임)인지를 구별하며,
    상기 동적 판별부는
    제2 동적 특성 인코더를 통해 획득되는 상기 비디오 시퀀스에 대한 외형 억압 동적 특성과 상기 제1 동적 특성 인코더를 통해 획득되는 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 비교하고, 외형 억압 동적 특성이 현실 동적 특성(상기 소스 비디오 데이터의 동적 특성)인지 또는 생성된 동적 특성(상기 비디오 시퀀스의 동적 특성)인지를 구별하며,
    상기 동적 판별부는
    상기 비디오 시퀀스의 가변 길이에 영향을 받지 않기 위해, 시간 T까지의 상기 비디오 시퀀스에 대한 외형 억압 동적 특성만을 이용하여 동적 특성 일관성을 구별하는 것을 특징으로 하는, 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템.
  2. 제1항에 있어서,
    상기 동적 채널 임베디드부는
    상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 상기 특정 채널에 삽입하여 시간 T에서의 상기 소스 비디오 데이터에 대한 외형과 외형 억압 동적 특성을 결합하는 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템.
  3. 제2항에 있어서,
    상기 동적 채널 임베디드부는
    드롭아웃(dropout)을 이용하여 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성에 노이즈를 생성하는 것을 특징으로 하는 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템.
  4. 제1항에 있어서,
    상기 생성부는
    유­넷 네트워크(U­net Network) 구조를 사용하여 상기 대상 이미지 데이터의 외형을 보존하는 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템.
  5. 제4항에 있어서,
    상기 생성부는
    상기 판별부를 통해 판별되는 상기 비디오 시퀀스에 대한 공간적 및 시간적 일관성에 기초하여 최종 비디오 시퀀스를 생성하는 것을 특징으로 하는 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제1항에 있어서,
    상기 제1 동적 특성 인코더 및 상기 제2 동적 특성 인코더는
    상기 소스 비디오 데이터 또는 상기 비디오 시퀀스의 제1 프레임을 복제하여 정적 시퀀스를 생성하고, 순환신경망(recurrent neural networks; RNN)를 이용하여 상기 소스 비디오 데이터 또는 상기 비디오 시퀀스의 잠재 시공간 특징 및 상기 정적 시퀀스의 잠재 시공간 특징을 획득하며, 상기 소스 비디오 데이터 또는 상기 비디오 시퀀스의 잠재 시공간 특징에서 상기 정적 시퀀스의 잠재 시공간 특징을 제거하여 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성 또는 상기 비디오 시퀀스에 대한 외형 억압 동적 특성을 제공하는 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템.
  11. 소스 비디오 데이터의 동적 특성과 대상 이미지 데이터의 외형을 이용하여 가변 길이의 비디오 시퀀스를 생성하고, 판별 결과에 기초하여 최종 비디오 시퀀스를 생성하는 생성기 네트워크; 및
    상기 소스 비디오 데이터와 상기 비디오 시퀀스 사이의 프레임 정확도를 구별하고, 소스 비디오 데이터에 대한 외형 억압 동적 특성과 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 판별기 네트워크를 포함하되,
    상기 생성기 네트워크 및 상기 판별기 네트워크는 교대로 수행되는 것을 특징으로 하며,
    상기 판별기 네트워크는
    상기 소스 비디오 데이터와 상기 비디오 시퀀스 사이의 프레임 정확도를 구별하는 공간 판별부; 및
    상기 소스 비디오 데이터에 대한 외형 억압 동적 특성과 상기 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 동적 판별부를 포함하고,
    상기 공간 판별부는
    상기 소스 비디오 데이터 및 상기 비디오 시퀀스를 시간에서의 복수의 프레임으로 구분하여 프레임에 대한 정확도를 판단하고, 프레임이 실제 프레임(상기 소스 비디오 데이터의 프레임)인지 또는 생성된 프레임(상기 비디오 시퀀스의 프레임)인지를 구별하며,
    상기 동적 판별부는
    제2 동적 특성 인코더를 통해 획득되는 상기 비디오 시퀀스에 대한 외형 억압 동적 특성과 제1 동적 특성 인코더를 통해 획득되는 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 비교하고, 외형 억압 동적 특성이 현실 동적 특성(상기 소스 비디오 데이터의 동적 특성)인지 또는 생성된 동적 특성(상기 비디오 시퀀스의 동적 특성)인지를 구별하며,
    상기 동적 판별부는
    상기 비디오 시퀀스의 가변 길이에 영향을 받지 않기 위해, 시간 T까지의 상기 비디오 시퀀스에 대한 외형 억압 동적 특성만을 이용하여 동적 특성 일관성을 구별하는 것을 특징으로 하는, 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템.
  12. 제11항에 있어서,
    상기 생성기 네트워크는
    상기 소스 비디오 데이터에서, 상기 제1 동적 특성 인코더를 통해 시간 동적 특성이 인코딩된 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 특정 채널에 삽입하는 동적 채널 임베디드부; 및
    상기 대상 이미지 데이터의 외형과 상기 임베디드된 특정 채널을 결합하여 가변 길이의 상기 비디오 시퀀스를 생성하는 생성부
    를 포함하는 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템.
  13. 삭제
  14. 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템의 동작 방법에 있어서,
    제1 동적 특성 인코더를 통해 시간 동적 특성이 인코딩된 소스 비디오 데이터에 대한 외형 억압 동적 특성을 특정 채널에 삽입하는 단계;
    대상 이미지 데이터의 외형과 상기 임베디드된 특정 채널을 결합하여 가변 길이의 비디오 시퀀스를 생성하는 단계;
    상기 소스 비디오 데이터와 상기 비디오 시퀀스 사이의 프레임 정확도를 구별하고, 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성과 비디오 시퀀스에 대한 외형 억압 동적 특성 사이의 동적 특성 일관성을 구별하는 단계; 및
    구별 결과에 기초하여, 상기 비디오 시퀀스에 대한 공간적 및 시간적 일관성에 기초하여 최종 비디오 시퀀스를 출력하는 단계를 포함하되,
    상기 프레임의 정확도를 구별하고, 동적 특성 일관성을 구별하는 단계는
    상기 소스 비디오 데이터 및 상기 비디오 시퀀스를 시간에서의 복수의 프레임으로 구분하여 프레임에 대한 정확도를 판단하고, 프레임이 실제 프레임(상기 소스 비디오 데이터의 프레임)인지 또는 생성된 프레임(상기 비디오 시퀀스의 프레임)인지를 구별하며,
    상기 프레임의 정확도를 구별하고, 동적 특성 일관성을 구별하는 단계는
    제2 동적 특성 인코더를 통해 획득되는 상기 비디오 시퀀스에 대한 외형 억압 동적 특성과 상기 제1 동적 특성 인코더를 통해 획득되는 상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 비교하고, 외형 억압 동적 특성이 현실 동적 특성(상기 소스 비디오 데이터의 동적 특성)인지 또는 생성된 동적 특성(상기 비디오 시퀀스의 동적 특성)인지를 구별하며, 상기 비디오 시퀀스의 가변 길이에 영향을 받지 않기 위해, 시간 T까지의 상기 비디오 시퀀스에 대한 외형 억압 동적 특성만을 이용하여 동적 특성 일관성을 구별하는 것을 특징으로 하는, 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 방법.
  15. 제14항에 있어서,
    상기 소스 비디오 데이터를 특정 채널에 삽입하는 단계는
    상기 소스 비디오 데이터에 대한 외형 억압 동적 특성을 상기 특정 채널에 삽입하여 시간 T에서의 상기 소스 비디오 데이터에 대한 외형과 외형 억압 동적 특성을 결합하는 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 방법.
  16. 제14항에 있어서,
    상기 가변 길이의 비디오 시퀀스를 생성하는 단계는
    유­넷 네트워크(U­net Network) 구조를 사용하여 상기 대상 이미지 데이터의 외형을 보존하는 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 방법.
  17. 삭제
  18. 삭제
  19. 제14항 내지 제16항 중 어느 한 항의 방법을 수행하기 위하여 컴퓨터로 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
KR1020180010817A 2018-01-29 2018-01-29 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법 KR102095097B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180010817A KR102095097B1 (ko) 2018-01-29 2018-01-29 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180010817A KR102095097B1 (ko) 2018-01-29 2018-01-29 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20190091806A KR20190091806A (ko) 2019-08-07
KR102095097B1 true KR102095097B1 (ko) 2020-03-30

Family

ID=67621355

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180010817A KR102095097B1 (ko) 2018-01-29 2018-01-29 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102095097B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3973459A1 (en) * 2019-05-23 2022-03-30 DeepMind Technologies Limited Generative adversarial networks with temporal and spatial discriminators for efficient video generation
CN110599435B (zh) * 2019-09-04 2021-01-12 精英数智科技股份有限公司 一种图像合成的方法、装置、设备和存储介质
CN110633748B (zh) * 2019-09-16 2022-06-14 电子科技大学 一种鲁棒的自动人脸融合方法
CN113542758B (zh) * 2020-04-15 2024-09-10 辉达公司 生成对抗神经网络辅助的视频压缩和广播
CN112016683B (zh) * 2020-08-04 2023-10-31 杰创智能科技股份有限公司 数据增强学习、训练方法、电子设备、可读存储介质
CN112215140A (zh) * 2020-10-12 2021-01-12 苏州天必佑科技有限公司 一种基于时空对抗的3维信号处理方法
KR102303626B1 (ko) * 2021-01-15 2021-09-17 정지수 단일 이미지에 기반하여 비디오 데이터를 생성하기 위한 방법 및 컴퓨팅 장치
KR102311796B1 (ko) * 2021-03-29 2021-10-12 인하대학교 산학협력단 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2006314066B2 (en) * 2005-11-15 2012-11-08 Briefcam, Ltd. Method and system for producing a video synopsis
KR101370514B1 (ko) * 2012-05-24 2014-03-06 한국과학기술원 얼굴 인식 방법 및 그 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAE HOE KIM ET AL.,‘Multiobjective based spatio-temporal feature representation learning robust to expression intensity variations for facial expression recognition’, IEEE TRANSACTIONS ON AFFECTIVE CO*
PHILLIP ISOLA ET AL., ‘Image-to-Image Translation with Conditional Adversarial Networks’, CVPR 2017, 17pages, (2017.11.30)*

Also Published As

Publication number Publication date
KR20190091806A (ko) 2019-08-07

Similar Documents

Publication Publication Date Title
KR102095097B1 (ko) 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법
Perarnau et al. Invertible conditional gans for image editing
Van Den Oord et al. Neural discrete representation learning
Zhang et al. Augmenting supervised neural networks with unsupervised objectives for large-scale image classification
CN109891897B (zh) 用于分析媒体内容的方法
Walker et al. Predicting video with vqvae
KR20210043626A (ko) 심층 신경망용 압축 방법, 칩, 전자 장치 및 매체
KR20210114074A (ko) 멀티미디어 데이터의 캡셔닝 정보를 생성하는 방법, 장치, 디바이스 및 매체
KR20200132665A (ko) 집중 레이어를 포함하는 생성기를 기반으로 예측 이미지를 생성하는 장치 및 그 제어 방법
Akan et al. Slamp: Stochastic latent appearance and motion prediction
KR102042168B1 (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
GB2609708A (en) Method and apparatus for video recognition
KR20200052453A (ko) 딥러닝 모델 학습 장치 및 방법
CN112804558B (zh) 视频拆分方法、装置及设备
Yang et al. Learning interactive real-world simulators
WO2022205416A1 (zh) 一种基于生成式对抗网络的人脸表情生成方法
CN114973049A (zh) 一种统一卷积与自注意力的轻量视频分类方法
KR102621355B1 (ko) 미세 구조 마스크를 사용한 다중 스케일 인자 이미지 슈퍼 해상도
CN112990078A (zh) 一种基于生成式对抗网络的人脸表情生成方法
Zhao et al. Enhanced surveillance video compression with dual reference frames generation
WO2023091249A1 (en) Neural semantic fields for generalizable semantic segmentation of 3d scenes
CN113570689A (zh) 人像卡通化方法、装置、介质和计算设备
Mishra et al. Multi-scale network (MsSG-CNN) for joint image and saliency map learning-based compression
Samplawski et al. Towards objection detection under iot resource constraints: Combining partitioning, slicing and compression
Zhu et al. Video snapshot: Single image motion expansion via invertible motion embedding

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant