KR20220051575A

KR20220051575A - 딥러닝 기반의 영화 장면 생성 방법.

Info

Publication number: KR20220051575A
Application number: KR1020200135148A
Authority: KR
Inventors: 김판구; 김형주; 홍택은; 유경호; 박은빈; 고미아
Original assignee: 조선대학교산학협력단
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2022-04-26

Abstract

본 발명은 딥러닝 기반의 영화 장면 생성 방법에 관한 것으로, 보다 구체적으로는 생성하고자 하는 영화 장면의 시나리오를 미리 학습된 GAN 모델에 입력하여 입력된 시나리오와 관련된 유사한 영화 장면을 생성함으로써, 저비용으로 신속하게 영상 콘텐츠 제작을 수행할 수 있는 딥러닝 기반의 영화 장면 생성 방법에 관한 것이다.

Description

딥러닝 기반의 영화 장면 생성 방법.{Deep learning-based movie scene creation method}

최근 영상 콘텐츠에 대한 소비자들의 수요가 증가함에 따라 영상 제작 규모가 증가하고 있다. 따라서, 영상 콘텐츠 제작을 낮은 비용으로 빠르게 제작할 수 있는 기술이 필요하며, 영상 콘텐츠를 제작히기 위해서는 시나리오와 같은 영상에 대한 다양한 정보를 갖고 있는 텍스트를 이용하여 이미지를 생성하는 것이 필요하다.

텍스트에서 이미지로 변환하는 기술을 Text-to-image 기술이라 하며, Text-to-image는 텍스트에서 이미지를 합성하는 기술로, 일반적으로 텍스트에서 시각 정보를 추출하고, 이와 유사한 특징을 갖는 이미지를 합성하는 방식이이었는데, 이러한 방식은 주어진 데이터 셋 이외의 이미지는 생성할 수가 없는 문제가 있다.

또한, 일반적인 벤치마크에 사용되는 데이터들이 이미지와 이미지에 대한 설명으로 대부분 단문으로 구성되어 있으나, 영상 콘텐츠 제작에 사용되는 시나리오는 장문으로 구성되어 있어 적합하지 않다.

또한, 시나리오에는 장면 전환과 같은 시간적 정보와 장면을 구성하고 있는 공간적 정보를 내포하고 있으며, 무대 연출, 인물과 인물 간의 대화로 구성되어 있어 장면에 대한 설명이 풍부한 텍스트로, 여러 복합적인 의미를 내포하고 있는 시나리오에서 영화 장면을 생성하기 위해서는 기존의 Text-to-image 기술보다 향상된 방법이 필요하다.

KR10-2020-0068553 A "딥러닝 네트워크를 이용하여 복수의 이미지들로부터 이야기를 생성하기 위한 방법 및 장치" KR10-2020-0092491 A "자연어 문장을 기반으로 하는 변환 이미지 생성 장치, 방법 및 이를 이용하는 변환 이미지 생성 시스템"

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 장면 전환과 같은 시간적 정보와 장면을 구성하고 있는 공간적 정보, 무대 연출, 인물과 인물 간의 대화 등의 정보를 담고 있는 시나리오를 입력받아 관련성이 높은 유사한 영화 장면을 생성할 수 있어, 영상 콘텐츠 제작에 있어 소요되는 비용과 시간을 최소화할 수 있는 딥러닝 기반의 영화 장면 생성 방법에 관한 것이다.

상기 목적을 달성하기 위해 본 발명은 시나리오와 영화 장면을 수집하는 단계; 수집된 시나리오를 액션별로 분류하는 단계; 액션별로 분류된 시나리오에 대응되는 상기 영화 장면을 매칭하여 학습 데이터 셋을 구축하는 단계; 상기 데이터 셋을 GAN(Generative Adversarial Network) 모델에 학습하는 단계; 및 영화 장면을 생성하고자 하는 시나리오를 학습된 GAN 모델에 입력하여 유사한 영화 장면을 생성하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 기반의 영화 장면 생성 방법을 제공한다.

바람직한 실시예에 있어서, 상기 액션별로 분류하는 단계는 입력된 시나리오를 사전 학습 언어 모델인 BERT 모델을 이용하여 분류할 수 있다.

바람직한 실시예에 있어서, 상기 GAN 모델은 Mirror GAN 모델이다.

바람직한 실시예에 있어서, 상기 Mirror GAN 모델에 구성된 모듈 중 STREAM 모델은 CNN과 Transformer Encoder 기반의 네트워크 구조를 갖는다.

또한, 본 발명은 상기 딥러닝 기반의 영화 장면 생성 방법을 수행하기 위한 기록 매체에 저장된 컴퓨터 프로그램을 더 제공할 수 있다.

본 발명은 다음과 같은 우수한 효과를 가진다.

본 발명의 딥러닝 기반의 영화 장면 생성 방법에 의하면, 영화 장면을 생성하고자 하는 시나리오를 개선된 Mirror GAN 모델에 입력하여 입력된 시나리오와 유사한 영화 장면을 생성할 수 있어, 영상 콘텐츠 제작에 있어 소요되는 비용과 시간을 최소화할 수 있다.

도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 영화 장면 생성 방법의 순서도,
도 2는 본 발명의 일 실시예에 따른 데이터 셋의 형성 과정을 보여주는 도면,
도 3은 본 발명의 일 실시예에 따른 개선된 Mirror GAN의 구조를 보여주는 도면이다.

본 발명에서 사용되는 용어는 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어도 있는데 이 경우에는 단순한 용어의 명칭이 아닌 발명의 상세한 설명 부분에 기재되거나 사용된 의미를 고려하여 그 의미가 파악되어야할 것이다.

이하, 첨부한 도면에 도시된 바람직한 실시예들을 참조하여 본 발명의 기술적 구성을 상세하게 설명한다.

그러나, 본 발명은 여기서 설명되는 실시예에 한정되지 않고 다른 형태로 구체화될 수도 있다. 명세서 전체에 걸쳐 동일한 참조번호는 동일한 구성요소를 나타낸다.

본 발명의 딥러닝 기반의 영화 장면 생성 방법은 각 액션별로 분류된 시나리오와 영화 장면이 학습된 딥러닝에 영화 장면을 생성하고자 하는 시나리오를 입력하여 관련성이 높은 유사한 영화 장면을 새롭게 생성하여 제공할 수 있는 방법이다.

또한, 상기 딥러닝 기반의 영화 장면 생성 방법은 실질적으로 컴퓨터에 의해 수행되며 상기 컴퓨터에는 상기 심전도 신호의 기저선 변동 잡음 제거 방법이 수행되기 위한 컴퓨터 프로그램이 저장된다.

또한, 상기 컴퓨터는 일반적인 퍼스널 컴퓨터뿐만 아니라, 스마트폰이나 태블릿 PC와 같은 스마트 기기를 포함하는 광의의 컴퓨팅 장치를 의미한다.

또한, 상기 컴퓨터 프로그램은 별도의 기록 매체에 저장되어 제공될 수 있으며, 상기 기록 매체는 본 발명을 위하여 특별히 설계되어 구성된 것을이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수 있다.

예를 들면, 상기 기록 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD, DVD와 같은 광 기록 매체, 자기 및 광 기록을 겸할 수 있는 자기-광 기록 매체, 롬, 램, 플래시 메모리 등 단독 또는 조합에 의해 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치일 수 있다.

또한, 상기 컴퓨터 프로그램은 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등이 단독 또는 조합으로 구성된 프로그램일 수 있고, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라, 인터프리터 등을 사용하여 컴퓨터에 의해 실행될 수 있는 고급 언어 코드로 짜여진 프로그램일 수 있다.

이하에서는 본 발명의 일 실시예에 따른 딥러닝 기반의 영화 장면 생성 방법에 대해 상세히 설명한다.

도 1 내지 도 3을 참조하면, 본 발명의 딥러닝 기반의 영화 장면 생성 방법은 먼저, 시나리오와 영화 장면을 수집한다(S1000).

여기서, 상기 시나리오는 텍스트 형식이며, 상기 영화 장면은 이미지 형식으로, 아래에서 설명할 GAN 모델의 학습을 위한 데이터를 수집하는 단계이다.

다음, 상기 수집된 시나리오를 액션별로 분류한다(S2000).

이때, 상기 액션별로 분류하기 위해 사전훈련 기반의 언어 모델을 사용한다.

상기 사전훈련 기반의 언어 모델은 자연어 처리의 여러 가지 작업 전 대용량의 문장을 학습한 딥 러닝 모델을 말하며, 본 발명에서는 BERT(Bidirectional Encoder Representations form Transformer) 모델이 사용된다.

상기 BERT 모델은 입력된 문장으로부터 비슷한 의미를 갖는 문장끼리 분류하는 기능을 수행할 수 있으며, 본 발명에서는 각 액션별로 해당하는 시나리오를 분류하였다.

이를 위해 상기 BERT 모델을 사전에 액션별로 시나리오를 학습하였으며, 상기 액션 항목들은 영화 장면에 따라 다양하게 설정될 수 있다.

다음, 학습하기 위한 데이터 셋을 구축한다(S3000).

상기 데이터 셋은 액션별로 분류된 시나리오와 수집된 영화 장면들을 매칭하여 데이터 셋을 구축하며, 각 시나리오와 관련성이 높은 유의미한 영화 장면들을 서로 그룹이 이루어지도록 데이터 셋을 구축한다.

다음, 상기 데이터 셋을 이용하여, GAN(Generative Adversarial Network) 모델에 학습한다(S4000).

상기 GAN 모델은 딥러닝 중의 하나로 적대적 생성 모델로 불리기도 하며, 기존의 딥러닝이 예측, 분류 등을 수행하는 업무를 수행하는 반면, 입력된 데이터에 기반하여 유사한 이미지를 생성하는 기능을 수행하는 알고리즘으로, 본 발명에서는 수정된 Mirror GAN 모델을 사용한다.

여기서, 상기 Mirror GAN 모델은 크게 RNN(Recurrent Neural Network)을 통해 입력된 텍스트 데이터의 시각 정보(워드 벡터(Word vector), 문장 벡터(Setence vector))를 추출하는 임베딩 작업을 수행하는 STEM(Semantic Text Embedding Module) 모듈, 상기 STEM 모듈을 통해 추출된 임베딩 정보를 기반으로 이미지를 생성하는 GLAM(Global-Local Collaborative Attentive module) 모듈 및 상기 생성된 이미지를 CNN(Convolutional Neural Network)과 RNN을 거쳐 관련성이 높은 텍스트로 변환하는 STRAM(Smemantic Text REgeneration and Alignment Module)모듈로 구성되며, 각 모듈들을 통해 학습되는 과정과 이미지가 생성되는 과정은 이미 공지된 기술로 상세한 설명은 생략한다.

한편, 상기 STREAM 모듈에서는 STREAM 모듈에서는 생성된 이미지를 텍스트로 변환하기 위해 CNN과 RNN을 사용하였으나, 본 발명에서는 RNN을 대체하여 Transfomer Decoder를 사용하는 개선된 Mirror GAN 모델을 사용한다.

상기 Transformer Decoder는 기존의 RNN 보다 연산량이 적고, 성능이 우수하다는 장점이 있으며, 이에 따라 기존의 Mirror GAN 모델을 사용할 때 보다 우수한 성능을 나타낼 수 있다.

다음, 생성하고자 하는 영화 장면의 시나리오를 학습된 GAN 모델에 입력하여 입력된 시나리오와 관련성이 높은 유사한 영화 장면을 생성한다(S5000).

즉, 본 발명은 상술한 과정들을 통해 시나리오에 대한 영화 장면을 생성할 수 있어 영상 콘텐츠 제작에 소요되는 비용과 시간을 최소화할 수 있다는 장점이 있다.

이상에서 살펴본 바와 같이 본 발명은 바람직한 실시예를 들어 도시하고 설명하였으나, 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다.

Claims

시나리오와 영화 장면을 수집하는 단계;
수집된 시나리오를 액션별로 분류하는 단계
액션별로 분류된 시나리오에 대응되는 상기 영화 장면을 매칭하여 학습 데이터 셋을 구축하는 단계;
상기 데이터 셋을 GAN(Generative Adversarial Network) 모델에 학습하는 단계; 및
영화 장면을 생성하고자 하는 시나리오를 학습된 GAN 모델에 입력하여 유사한 영화 장면을 생성하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 기반의 영화 장면 생성 방법.
제 1 항에 있어서,
상기 액션별로 분류하는 단계는 입력된 시나리오를 사전 학습 언어 모델인 BERT 모델을 이용하여 분류하는 것을 특징으로 하는 딥러닝 기반의 영화 장면 생성 방법.
제 1 항에 있어서,
상기 GAN 모델은 Mirror GAN 모델인 것을 특징으로 하는 딥러닝 기반의 영화 장면 생성 방법.
제 3 항에 있어서,
상기 Mirror GAN 모델에 구성된 모듈 중 STREAM 모델은 CNN과 Transformer Encoder 기반의 네트워크 구조를 갖는 것을 특징으로하는 딥러닝 기반의 영화 장면 생성 방법.
제 1 항 내지 제 4 항 중 어느 한 항의 상기 딥러닝 기반의 영화 장면 생성 방법을 수행하기 위한 기록 매체에 저장된 컴퓨터 프로그램.