KR102117654B1

KR102117654B1 - 자연어 기반의 비디오 생성 방법 및 장치

Info

Publication number: KR102117654B1
Application number: KR1020190049611A
Authority: KR
Inventors: 변혜란; 홍기범; 김호성
Original assignee: 연세대학교 산학협력단
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2020-06-01

Abstract

본 실시예들은 텍스트에서 추출한 행동 벡터를 시간의 흐름에 따라 변화시킨 후 프레임을 생성하고, 텍스트에서 추출한 컨텐츠 벡터를 이용하여 상기 생성된 프레임을 검증하고, 행동에 대한 조건 벡터를 이용하여 상기 생성된 프레임의 집합인 비디오를 검증함으로써, 텍스트로부터 자연스러운 비디오를 생성하는 비디오 생성 방법 및 장치를 제공한다.

Description

자연어 기반의 비디오 생성 방법 및 장치 {Method and Apparatus for Generating Video Based on Natural Language}

본 실시예가 속하는 기술 분야는 비디오를 생성하는 방법 및 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

네트워크 기술의 발달 및 서버 확장에 따른 미디어 플랫폼 산업 규모가 증가하는 추세이다. 스마트 디바이스의 보급으로 사용자들은 모바일 인터넷을 통해 다양한 콘텐츠에 언제든지 접근 가능하다.

구글은 이미지, 음성, 비디오 등 다양하고 많은 데이터를 처리 가능한 머신 러닝용 라이브러리인 텐서플로우(Tensorflow)를 오픈소스로 배포했다.

인공지능, 특히 비지도 학습 기술의 발달로 기존 비디오에서 일부 영역을 변경하거나 사진 이미지를 합성하여 가짜 비디오를 생성할 수 있다. 또는 머신러닝을 이용하여 텍스트로부터 이미지를 생성하기도 한다.

비디오를 합성하거나 텍스트에서 이미지를 생성하는 것과 달리, 텍스트로부터 비디오를 생성하기는 쉽지 않다. 예컨대, 행동적 요소가 포함된 "빨간 셔츠를 입은 남성이 골프를 친다"라는 문장으로부터 프레임 간의 흐름이 자연스러운 비디오를 생성하는 것은 쉽지 않은 실정이다.

본 발명의 실시예들은 텍스트에서 추출한 행동 벡터를 시간의 흐름에 따라 변화시킨 후 프레임을 생성하고, 텍스트에서 추출한 컨텐츠 벡터를 이용하여 상기 생성된 프레임을 검증하고, 행동에 대한 조건 벡터를 이용하여 상기 생성된 프레임의 집합인 비디오를 검증함으로써, 텍스트로부터 자연스러운 비디오를 생성하는 데 발명의 주된 목적이 있다.

본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.

본 실시예의 일 측면에 의하면, 컴퓨팅 디바이스에 의한 비디오 생성 방법에 있어서, 임베딩 모델을 이용하여 문장으로부터 행동 벡터와 컨텐츠 벡터를 추출하는 단계, 생성 모델을 이용하여 상기 행동 벡터를 시간의 흐름에 따라 변화시키고 상기 변화한 행동 벡터와 상기 컨텐츠 벡터를 결합한 복합 벡터를 이용하여 프레임을 생성하는 단계, 및 판별 모델을 이용하여 상기 생성한 프레임에 대해서 실재의 이미지와 실재의 비디오를 기준으로 비교하여 상기 생성한 프레임의 집합의 진위를 판단하는 단계를 포함하는 비디오 생성 방법을 제공한다.

본 실시예의 다른 측면에 의하면, 문장으로부터 행동 벡터와 컨텐츠 벡터를 추출하는 임베딩 모델, 상기 행동 벡터를 시간의 흐름에 따라 변화시키고 상기 변화한 행동 벡터와 상기 컨텐츠 벡터를 결합한 복합 벡터를 이용하여 프레임을 생성하는 생성 모델, 및 상기 생성한 프레임에 대해서 실재의 이미지와 실재의 비디오를 기준으로 비교하여 상기 생성한 프레임의 진위를 판단하는 판별 모델을 포함하는 비디오 생성 장치를 제공한다.

본 실시예의 또 다른 측면에 의하면, 프로세서에 의해 실행 가능한 컴퓨터 프로그램 명령어들을 포함하는 비일시적(Non-Transitory) 컴퓨터 판독 가능한 매체에 기록된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램 명령어들이 컴퓨팅 디바이스의 프로세서에 의해 실행되는 경우에, 임베딩 모델을 이용하여 문장으로부터 행동 벡터와 컨텐츠 벡터를 추출하는 단계, 생성 모델을 이용하여 상기 행동 벡터를 시간의 흐름에 따라 변화시키고 상기 변화한 행동 벡터와 상기 컨텐츠 벡터를 결합한 복합 벡터를 이용하여 프레임을 생성하는 단계, 및 판별 모델을 이용하여 상기 생성한 프레임에 대해서 실재의 이미지와 실재의 비디오를 기준으로 비교하여 상기 생성한 프레임의 집합의 진위를 판단하는 단계를 포함한 동작들을 수행하는 것을 특징으로 하는 컴퓨터 프로그램을 제공한다.

이상에서 설명한 바와 같이 본 발명의 실시예들에 의하면, 텍스트에서 추출한 행동 벡터를 시간의 흐름에 따라 변화시킨 후 프레임을 생성하고, 텍스트에서 추출한 컨텐츠 벡터를 이용하여 상기 생성된 프레임을 검증하고, 행동에 대한 조건 벡터를 이용하여 상기 생성된 프레임의 집합인 비디오를 검증함으로써, 텍스트로부터 자연스러운 비디오를 생성할 수 있는 효과가 있다.

여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급된다.

도 1은 본 발명의 일 실시예에 따른 비디오 생성 장치를 예시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 비디오 생성 장치의 임베딩 모델을 예시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 비디오 생성 장치의 생성 모델을 예시한 도면이다.
도 4 및 도 5는 본 발명의 일 실시예에 따른 비디오 생성 장치의 판별 모델을 예시한 도면이다.
도 6은 본 발명의 다른 실시예에 따른 비디오 생성 방법을 예시한 흐름도이다.
도 7은 본 발명의 실시예들을 실시하는 컴퓨팅 디바이스를 예시한 블록도이다.

이하, 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하고, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 비디오 생성 장치를 예시한 블록도이다.

도 1에 도시한 바와 같이, 비디오 생성 장치(100)는 임베딩 모델(110), 생성 모델(120), 및 판별 모델(130)을 포함한다. 도 1에서 예시적으로 도시한 다양한 구성요소들 중에서 일부 구성요소를 생략하거나 다른 구성요소를 추가로 포함할 수 있다. 판별 모델(130)은 이미지 판별기(140) 및 비디오 판별기(150)를 포함할 수 있다.

비디오 생성 장치(100)는 텍스트에서 추출한 행동 벡터를 시간의 흐름에 따라 변화시킨 후 프레임을 생성하고, 텍스트에서 추출한 컨텐츠 벡터를 이용하여 상기 생성된 프레임을 검증하고, 행동에 대한 조건 벡터를 이용하여 상기 생성된 프레임의 집합인 비디오를 검증함으로써, 텍스트로부터 자연스러운 비디오를 생성할 수 있다.

임베딩 모델(110)은 문장을 단어 별로 분리하고 단어를 벡터화시켜 단어 별로 특징을 추출하고, 업데이트 게이트와 리셋 게이트를 갖는 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 통해 단어의 순서를 고려한 전체 문장의 특징을 추출한다.

행동 벡터는 비디오에서 변하는 인물 및 사물의 행동에 관한 속성을 포함하고, 컨텐츠 벡터는 비디오에서 변하지 않는 배경, 인물 및 사물의 묘사에 관한 속성을 포함한다.

생성 모델(120)은 행동 벡터를 업데이트 게이트와 리셋 게이트를 갖는 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 통해 시간의 흐름에 따라 변하는 공간을 찾고, 변하는 공간에 따라 행동 벡터를 변경한다.

판별 모델(130)은 이미지 판별기(Image Discriminator, 140)와 비디오 판별기(Video Discriminator, 150)를 포함한다.

이미지 판별기(140)는 생성된 프레임이 실재의 프레임인지 모조의 프레임인지를 판단하고, 컨텐츠 벡터를 기반으로 프레임과 상기 문장 간의 유사도를 판단하여, 생성한 프레임의 진위를 결정한다.

비디오 판별기(150)는 정방향 또는 역방향으로 행동에 관한 조건 벡터를 이용하여 생성한 프레임의 집합이 실제의 비디오인지를 판단한다.

비디오 생성 장치(100)는 생성된 프레임을 1차적으로 학습을 수행하고, 생성된 프레임의 집합인 비디오를 2차적으로 학습을 수행한다.

도 2는 본 발명의 일 실시예에 따른 비디오 생성 장치의 임베딩 모델을 예시한 도면이다.

임베딩 모델은 우선 사용자로부터 받은 문장을 단어 별로 쪼갠 후 BERT모델을 거쳐 단어 개수만큼 워드의 특징을 획득한다. BERT모델은 텍스트를 벡터화 시켜주는 모델이다.

임베딩 모델은 다음 GRU 모델을 활용하여 단어의 순서를 고려한 전체 문장의 특징을 추출한다. GRU 모델은 순서가 있는 데이터를 처리하는 딥러닝 모델이다.

임베딩 모델은 데이터를 조건부 증폭(Conditional Augmentation) 모델을 활용하여 문장 특징을 가우시안(Gaussian) 분포로 변형한다. 조건부 증폭(Conditional Augmentation) 모델은 데이터의 스케일링 및 일정 비율의 데이터의 변형을 적용할 수 있다. 임베딩 모델은 다른 도메인(음성, 텍스트 등 이미지 외 다른 분야)의 정보를 조건부로 활용한다.

임베딩 모델은 획득한 문장 특징 벡터를 2개의 엔코더(Encoder)를 거쳐 각각 행동 정보 및 컨텐츠 정보를 추출한다. 모션 엔코더(Motion Endoder)와 컨텐츠 엔코더(Content Encoder)는 풀리 커넥티드 레이어(Fully Connected Layer)로 구현될 수 있다.

컨텐츠는 비디오 전반에 걸쳐 변하지 않은 배경, 인물 묘사 등을 의미하고, 행동은 비디오 전반에 걸쳐 균일하게 변하는 모션 속성을 의미한다.

도 3은 본 발명의 일 실시예에 따른 비디오 생성 장치의 생성 모델을 예시한 도면이다.

생성 모델은 문장 특징으로부터 각각 행동 특징과 컨텐츠 특징을 각각 추출한 후 우선 행동 벡터를 GRU에 입력하여 시간의 흐름에 따라 변하는 공간을 찾는다. 예컨대, 달리는 행동 벡터를 받았다면 GRU를 통해 각 프레임 별로 점차 달리는 행동 벡터(색깔이 변하는 보라색 부분)를 획득할 수 있다. 그 다음 컨텐츠 벡터와 결합(Concatenate)하여 각각의 생성기(Generator)에 입력되고 각각의 생성기(Generator)는 하나의 프레임을 생성하게 된다.

도 4 및 도 5는 본 발명의 일 실시예에 따른 비디오 생성 장치의 판별 모델을 예시한 도면이다.

판별 모델은 크게 이미지 판결기(Image Discriminator)와 비디오 판별기(Video Discriminator)를 포함한다. 판별 모델은 생성한 프레임의 진위를 판단하고, 컨텐츠 벡터를 기반으로 상기 프레임과 상기 문장 간의 유사도를 판단하여, 조건 벡터를 이용하여 생성한 프레임의 집합의 진위를 판단한다.

판별 모델은 생성한 프레임에 대해서 리얼 이미지를 기준으로 비교하여 생성한 프레임의 진위를 판단한다. 판별 모델은 생성한 프레임의 집합에 대해서 리얼 비디오를 기준으로 비교하여 생성한 프레임의 집합의 진위를 판단한다.

이미지 판별기는 두 가지의 결과물을 도출한다. 하나는 입력받은 이미지(프레임)이 실재(Real)인지 모조(Fake)인지, 그리고 또 하나는 컨텐츠 벡터(Content Vector)를 조건부로 받아서 프레임과 텍스트 사이의 유사 관계(Similarity)를 도출한다. 우선 컨텐츠 인코더(Contents Encoder)를 거쳐 나온 워드 특징(Word Feature)으로부터 가중치(Weight)와 바이어스(Bias)를 만든다. 동시에 각각 컨볼루션 레이어 이후에 나온 특징을 전역 평균 폴링(Global Average Pooling)을 통해 이미지 특징(Image Feature)를 획득한다. 그 후에 지역 판별기(Local Discriminator)에서 (weight * image_feature)＊bias 값을 구한 후 시그모이드(Sigmoid) 함수를 적용한다.

비디오 판별기는 해당 행동에 대한 원핫 벡터(one-hot vector)와 비디오를 입력으로 받아 조건부 실재(Real) 또는 모조(Fake)를 도출한다. 예컨대, 원핫 벡터는 하나의 요소는 1이고 나머지는 0인 희소 벡터로, 뛰기이면 [1 0 0 0], 걷기이면 [0 1 0 0] 등으로 설정될 수 있다.

생성 모델과 판별 모델은 상호 작용하는 적대적 생성 신경망이다. 생성 모델의 목적은 손실을 최소화하고 판별 모델의 목적은 손실을 최대화한다.

비디오 생성 장치가 이미지를 생성하고 판별하여 1차적으로 학습하는 과정에서 생성 모델의 손실 함수는 수학식 1과 같이 표현된다.

는 생성된 프레임이 진짜로 속이도록 설정된 함수이다.

는 생성된 프레임이 텍스트와 긴밀한 관계를 갖도록 설정된 함수이다.

는 텍스트 특징을 가우시안 분포로 만들도록 설정된 함수이다. y는 실재의 이미지이고, S(y)는 실재의 비디오이다. G(z,t)는 텍스트 기반으로 생성된 이미지이고, S(G(z,t))는 텍스트 기반으로 생성된 비디오이다. t는 올바른 텍스트이다. λ₁은 0.2, λ₂는 2.0으로 설정될 수 있다.

비디오 생성 장치가 이미지를 생성하고 판별하여 1차적으로 학습하는 과정에서 판별 모델의 손실 함수는 수학식 2와 같이 표현된다.

는 실재 프레임이 진짜인 것으로 이해하도록 설정된 함수이다.

는 생성된 프레임이 가짜인 것으로 이해하도록 설정된 함수이다.

는 실재 프레임이 잘못된 텍스트와는 긴밀한 관계를 못 갖도록 설정된 함수이다.

는 실재 프레임이 올바른 텍스트와 긴밀한 관계를 갖도록 설정된 함수이다.

y는 실재의 이미지이고, S(y)는 실재의 비디오이다. G(z,t)는 텍스트 기반으로 생성된 이미지이고, S(G(z,t))는 텍스트 기반으로 생성된 비디오이다. t는 올바른 텍스트,

는 잘못된 텍스트이다. λ₁은 0.2으로 설정될 수 있다.

비디오 생성 장치가 이미지의 집합을 생성하고 판별하여 2차적으로 비디오를 학습하는 과정에서 생성 모델의 손실 함수는 수학식 3와 같이 표현된다.

는 생성된 비디오가 행동에 맞게 진짜처럼 생성되도록 설정된 함수이다.

는 생성된 비디오의 순서(전, 후)를 잘 맞추도록 설정된 함수이다.

는 잘못된 텍스트이다. c는 조건 벡터(one-hot vector)이다.

비디오 생성 장치가 이미지의 집합을 생성하고 판별하여 2차적으로 비디오를 학습하는 과정에서 판별 모델의 손실 함수는 수학식 3와 같이 표현된다.

와

는 실재 비디오가 행동에 맞게 진짜는 진짜로, 가짜는 가짜로 판별하도록 설정된 함수이다.

는 실재 비디오의 순서(전, 후)를 잘 맞추도록 설정된 함수이다.

도 6은 본 발명의 다른 실시예에 따른 비디오 생성 방법을 예시한 흐름도이다. 비디오 생성 방법은 컴퓨팅 디바이스에 의하여 수행될 수 있으며, 비디오 생성 장치와 동일한 방식으로 동작한다.

단계 S210에서 프로세서는 임베딩 모델을 이용하여 문장으로부터 행동 벡터와 컨텐츠 벡터를 추출한다. 임베딩 모델은 문장을 단어 별로 분리하고 단어를 벡터화시켜 단어 별로 특징을 추출하고, 업데이트 게이트와 리셋 게이트를 갖는 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 통해 단어의 순서를 고려한 전체 문장의 특징을 추출한다. 행동 벡터는 비디오에서 변하는 인물 및 사물의 행동에 관한 속성을 포함하고, 컨텐츠 벡터는 비디오에서 변하지 않는 배경, 인물 및 사물의 묘사에 관한 속성을 포함한다.

단계 S220에서 프로세서는 생성 모델을 이용하여 행동 벡터를 시간의 흐름에 따라 변화시키고 변화한 행동 벡터와 컨텐츠 벡터를 결합한 복합 벡터를 이용하여 프레임을 생성한다. 생성 모델은 행동 벡터를 업데이트 게이트와 리셋 게이트를 갖는 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 통해 시간의 흐름에 따라 변하는 공간을 찾고, 변하는 공간에 따라 행동 벡터를 변경한다.

단계 S230에서 프로세서는 판별 모델을 이용하여 생성한 프레임에 대해서 실재의 이미지와 실재의 비디오를 기준으로 비교하여 생성한 프레임의 집합의 진위를 판단한다.

판별 모델은 이미지 판별기(Image Discriminator)와 비디오 판별기(Video Discriminator)를 포함한다. 이미지 판별기는 생성된 프레임이 실재의 프레임인지 모조의 프레임인지를 판단하고, 컨텐츠 벡터를 기반으로 프레임과 문장 간의 유사도를 판단하여, 생성한 프레임의 진위를 결정한다. 비디오 판별기는 정방향 또는 역방향으로 행동에 관한 조건 벡터를 이용하여 생성한 프레임의 집합이 상기 실제의 비디오인지를 판단한다.

비디오 생성 방법은 생성된 프레임을 학습하는 제1 학습 단계와 생성된 프레임의 집합인 비디오를 학습하는 제2 학습 단계를 포함한다.

본 실시예에 따른 비디오 생성 방법은 새롭게 정의된 이미지 생성 손실 함수와 이미지 판별 손실 함수를 이용하여 이미지 생성 및 판별 단계를 학습하고, 새롭게 정의된 비디오 생성 손실 함수와 비디오 판별 손실 함수를 이용하여 비디오 생성 및 판별 단계를 학습한다. 2단의 학습 과정을 통하여 시간적 순서에 맞는 비디오를 생성할 수 있다.

비디오 생성 장치에 포함된 구성요소들이 도 1에서는 분리되어 도시되어 있으나, 복수의 구성요소들은 상호 결합되어 적어도 하나의 모듈로 구현될 수 있다. 구성요소들은 장치 내부의 소프트웨어적인 모듈 또는 하드웨어적인 모듈을 연결하는 통신 경로에 연결되어 상호 간에 유기적으로 동작한다. 이러한 구성요소들은 하나 이상의 통신 버스 또는 신호선을 이용하여 통신한다.

비디오 생성 장치는 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합에 의해 로직회로 내에서 구현될 수 있고, 범용 또는 특정 목적 컴퓨터를 이용하여 구현될 수도 있다. 장치는 고정배선형(Hardwired) 기기, 필드 프로그램 가능한 게이트 어레이(Field Programmable Gate Array, FPGA), 주문형 반도체(Application Specific Integrated Circuit, ASIC) 등을 이용하여 구현될 수 있다. 또한, 장치는 하나 이상의 프로세서 및 컨트롤러를 포함한 시스템온칩(System on Chip, SoC)으로 구현될 수 있다.

비디오 생성 장치는 하드웨어적 요소가 마련된 컴퓨팅 디바이스 또는 서버에 소프트웨어, 하드웨어, 또는 이들의 조합하는 형태로 탑재될 수 있다. 컴퓨팅 디바이스 또는 서버는 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신장치, 프로그램을 실행하기 위한 데이터를 저장하는 메모리, 프로그램을 실행하여 연산 및 명령하기 위한 마이크로프로세서 등을 전부 또는 일부 포함한 다양한 장치를 의미할 수 있다.

도 7은 본 발명의 실시예들을 실시하는 컴퓨팅 디바이스를 예시한 블록도이다.

컴퓨팅 디바이스(310)는 적어도 하나의 프로세서(320), 컴퓨터 판독 가능한 저장매체(330) 및 통신 버스(370)를 포함한다.

프로세서(320)는 컴퓨팅 디바이스(310)를 동작하도록 제어할 수 있다. 예컨대, 프로세서(320)는 컴퓨터 판독 가능한 저장 매체(330)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(320)에 의해 실행되는 경우 컴퓨팅 디바이스(310)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능한 저장 매체(330)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능한 저장 매체(330)에 저장된 프로그램(340)은 프로세서(320)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독한 가능 저장 매체(330)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 디바이스(310)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(370)는 프로세서(320), 컴퓨터 판독 가능한 저장 매체(340)를 포함하여 컴퓨팅 디바이스(310)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 디바이스(310)는 또한 하나 이상의 입출력 장치를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(350) 및 하나 이상의 통신 인터페이스(360)를 포함할 수 있다. 입출력 인터페이스(350) 및 통신 인터페이스(360)는 통신 버스(370)에 연결된다. 입출력 장치(미도시)는 입출력 인터페이스(350)를 통해 컴퓨팅 디바이스(310)의 다른 컴포넌트들에 연결될 수 있다.

도 6에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나 이는 예시적으로 설명한 것에 불과하고, 이 분야의 기술자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 6에 기재된 순서를 변경하여 실행하거나 또는 하나 이상의 과정을 병렬적으로 실행하거나 다른 과정을 추가하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이다.

본 실시예들에 따른 동작은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 매체에 기록될 수 있다. 컴퓨터 판독 가능한 매체는 실행을 위해 프로세서에 명령어를 제공하는 데 참여한 임의의 매체를 나타낸다. 컴퓨터 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 또는 이들의 조합을 포함할 수 있다. 예를 들면, 자기 매체, 광기록 매체, 메모리 등이 있을 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드, 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.

본 실시예들은 본 실시예의 기술 사상을 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 비디오 생성 장치
110: 임베딩 모델
120: 생성 모델
130: 판별 모델
140: 이미지 판별기
150: 비디오 판별기

Claims

컴퓨팅 디바이스에 의한 비디오 생성 방법에 있어서,
임베딩 모델을 이용하여 문장으로부터 행동 벡터와 컨텐츠 벡터를 추출하는 단계;
생성 모델을 이용하여 상기 행동 벡터를 시간의 흐름에 따라 변화시키고 상기 변화한 행동 벡터와 상기 컨텐츠 벡터를 결합한 복합 벡터를 이용하여 프레임을 생성하는 단계; 및
판별 모델을 이용하여 상기 생성한 프레임에 대해서 실재의 이미지와 실재의 비디오를 기준으로 비교하여 상기 생성한 프레임의 집합의 진위를 판단하는 단계
를 포함하는 비디오 생성 방법.
제1항에 있어서,
상기 임베딩 모델은 상기 문장을 단어 별로 분리하고 상기 단어를 벡터화시켜 단어 별로 특징을 추출하고, 업데이트 게이트와 리셋 게이트를 갖는 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 통해 상기 단어의 순서를 고려한 전체 문장의 특징을 추출하는 것을 특징으로 하는 비디오 생성 방법.
제1항에 있어서,
상기 행동 벡터는 비디오에서 변하는 인물 및 사물의 행동에 관한 속성을 포함하고, 상기 컨텐츠 벡터는 비디오에서 변하지 않는 배경, 인물 및 사물의 묘사에 관한 속성을 포함하는 것을 특징으로 하는 비디오 생성 방법.
제1항에 있어서,
상기 생성 모델은 상기 행동 벡터를 업데이트 게이트와 리셋 게이트를 갖는 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 통해 시간의 흐름에 따라 변하는 공간을 찾고, 상기 변하는 공간에 따라 행동 벡터를 변경하는 것을 특징으로 하는 비디오 생성 방법.
제1항에 있어서,
상기 판별 모델은 이미지 판별기(Image Discriminator)와 비디오 판별기(Video Discriminator)를 포함하는 것을 특징으로 하는 비디오 생성 방법.
제5항에 있어서,
상기 이미지 판별기는 상기 생성된 프레임이 상기 실재의 프레임인지 모조의 프레임인지를 판단하고, 상기 컨텐츠 벡터를 기반으로 상기 프레임과 상기 문장 간의 유사도를 판단하여, 상기 생성한 프레임의 진위를 결정하는 것을 특징으로 하는 비디오 생성 방법.
제5항에 있어서,
상기 비디오 판별기는 정방향 또는 역방향으로 행동에 관한 조건 벡터를 이용하여 상기 생성한 프레임의 집합이 상기 실제의 비디오인지를 판단하는 것을 특징으로 하는 비디오 생성 방법.
제1항에 있어서,
상기 생성된 프레임을 학습하는 제1 학습 단계와 상기 생성된 프레임의 집합인 비디오를 학습하는 제2 학습 단계를 포함하는 것을 특징으로 하는 비디오 생성 방법.
문장으로부터 행동 벡터와 컨텐츠 벡터를 추출하는 임베딩 모델;
상기 행동 벡터를 시간의 흐름에 따라 변화시키고 상기 변화한 행동 벡터와 상기 컨텐츠 벡터를 결합한 복합 벡터를 이용하여 프레임을 생성하는 생성 모델; 및
상기 생성한 프레임에 대해서 실재의 이미지와 실재의 비디오를 기준으로 비교하여 상기 생성한 프레임의 진위를 판단하는 판별 모델
을 포함하는 비디오 생성 장치.
제9항에 있어서,
상기 임베딩 모델은 상기 문장을 단어 별로 분리하고 상기 단어를 벡터화시켜 단어 별로 특징을 추출하고, 업데이트 게이트와 리셋 게이트를 갖는 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 통해 상기 단어의 순서를 고려한 전체 문장의 특징을 추출하는 것을 특징으로 하는 비디오 생성 장치.
제9항에 있어서,
상기 생성 모델은 상기 행동 벡터를 업데이트 게이트와 리셋 게이트를 갖는 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 통해 시간의 흐름에 따라 변하는 공간을 찾고, 상기 변하는 공간에 따라 행동 벡터를 변경하는 것을 특징으로 하는 비디오 생성 장치.
제9항에 있어서,
상기 판별 모델은 상기 생성된 프레임이 상기 실재의 프레임인지 모조의 프레임인지를 판단하고, 상기 컨텐츠 벡터를 기반으로 상기 프레임과 상기 문장 간의 유사도를 판단하여, 상기 생성한 프레임의 진위를 결정하는 것을 특징으로 하는 비디오 생성 장치.
제9항에 있어서,
상기 판별 모델은 정방향 또는 역방향으로 행동에 관한 조건 벡터를 이용하여 상기 생성한 프레임의 집합이 상기 실제의 비디오인지를 판단하는 것을 특징으로 하는 비디오 생성 장치.
프로세서에 의해 실행 가능한 컴퓨터 프로그램 명령어들을 포함하는 비일시적(Non-Transitory) 컴퓨터 판독 가능한 매체에 기록된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램 명령어들이 컴퓨팅 디바이스의 프로세서에 의해 실행되는 경우에,
임베딩 모델을 이용하여 문장으로부터 행동 벡터와 컨텐츠 벡터를 추출하는 단계;
생성 모델을 이용하여 상기 행동 벡터를 시간의 흐름에 따라 변화시키고 상기 변화한 행동 벡터와 상기 컨텐츠 벡터를 결합한 복합 벡터를 이용하여 프레임을 생성하는 단계; 및
판별 모델을 이용하여 상기 생성한 프레임에 대해서 실재의 이미지와 실재의 비디오를 기준으로 비교하여 상기 생성한 프레임의 집합의 진위를 판단하는 단계를 포함한 동작들을 수행하는 것을 특징으로 하는 컴퓨터 프로그램.