KR20220051575A - 딥러닝 기반의 영화 장면 생성 방법. - Google Patents
딥러닝 기반의 영화 장면 생성 방법. Download PDFInfo
- Publication number
- KR20220051575A KR20220051575A KR1020200135148A KR20200135148A KR20220051575A KR 20220051575 A KR20220051575 A KR 20220051575A KR 1020200135148 A KR1020200135148 A KR 1020200135148A KR 20200135148 A KR20200135148 A KR 20200135148A KR 20220051575 A KR20220051575 A KR 20220051575A
- Authority
- KR
- South Korea
- Prior art keywords
- movie scene
- deep learning
- model
- scenario
- movie
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims abstract description 18
- 230000009471 action Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 딥러닝 기반의 영화 장면 생성 방법에 관한 것으로, 보다 구체적으로는 생성하고자 하는 영화 장면의 시나리오를 미리 학습된 GAN 모델에 입력하여 입력된 시나리오와 관련된 유사한 영화 장면을 생성함으로써, 저비용으로 신속하게 영상 콘텐츠 제작을 수행할 수 있는 딥러닝 기반의 영화 장면 생성 방법에 관한 것이다.
Description
본 발명은 딥러닝 기반의 영화 장면 생성 방법에 관한 것으로, 보다 구체적으로는 생성하고자 하는 영화 장면의 시나리오를 미리 학습된 GAN 모델에 입력하여 입력된 시나리오와 관련된 유사한 영화 장면을 생성함으로써, 저비용으로 신속하게 영상 콘텐츠 제작을 수행할 수 있는 딥러닝 기반의 영화 장면 생성 방법에 관한 것이다.
최근 영상 콘텐츠에 대한 소비자들의 수요가 증가함에 따라 영상 제작 규모가 증가하고 있다. 따라서, 영상 콘텐츠 제작을 낮은 비용으로 빠르게 제작할 수 있는 기술이 필요하며, 영상 콘텐츠를 제작히기 위해서는 시나리오와 같은 영상에 대한 다양한 정보를 갖고 있는 텍스트를 이용하여 이미지를 생성하는 것이 필요하다.
텍스트에서 이미지로 변환하는 기술을 Text-to-image 기술이라 하며, Text-to-image는 텍스트에서 이미지를 합성하는 기술로, 일반적으로 텍스트에서 시각 정보를 추출하고, 이와 유사한 특징을 갖는 이미지를 합성하는 방식이이었는데, 이러한 방식은 주어진 데이터 셋 이외의 이미지는 생성할 수가 없는 문제가 있다.
또한, 일반적인 벤치마크에 사용되는 데이터들이 이미지와 이미지에 대한 설명으로 대부분 단문으로 구성되어 있으나, 영상 콘텐츠 제작에 사용되는 시나리오는 장문으로 구성되어 있어 적합하지 않다.
또한, 시나리오에는 장면 전환과 같은 시간적 정보와 장면을 구성하고 있는 공간적 정보를 내포하고 있으며, 무대 연출, 인물과 인물 간의 대화로 구성되어 있어 장면에 대한 설명이 풍부한 텍스트로, 여러 복합적인 의미를 내포하고 있는 시나리오에서 영화 장면을 생성하기 위해서는 기존의 Text-to-image 기술보다 향상된 방법이 필요하다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 장면 전환과 같은 시간적 정보와 장면을 구성하고 있는 공간적 정보, 무대 연출, 인물과 인물 간의 대화 등의 정보를 담고 있는 시나리오를 입력받아 관련성이 높은 유사한 영화 장면을 생성할 수 있어, 영상 콘텐츠 제작에 있어 소요되는 비용과 시간을 최소화할 수 있는 딥러닝 기반의 영화 장면 생성 방법에 관한 것이다.
상기 목적을 달성하기 위해 본 발명은 시나리오와 영화 장면을 수집하는 단계; 수집된 시나리오를 액션별로 분류하는 단계; 액션별로 분류된 시나리오에 대응되는 상기 영화 장면을 매칭하여 학습 데이터 셋을 구축하는 단계; 상기 데이터 셋을 GAN(Generative Adversarial Network) 모델에 학습하는 단계; 및 영화 장면을 생성하고자 하는 시나리오를 학습된 GAN 모델에 입력하여 유사한 영화 장면을 생성하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 기반의 영화 장면 생성 방법을 제공한다.
바람직한 실시예에 있어서, 상기 액션별로 분류하는 단계는 입력된 시나리오를 사전 학습 언어 모델인 BERT 모델을 이용하여 분류할 수 있다.
바람직한 실시예에 있어서, 상기 GAN 모델은 Mirror GAN 모델이다.
바람직한 실시예에 있어서, 상기 Mirror GAN 모델에 구성된 모듈 중 STREAM 모델은 CNN과 Transformer Encoder 기반의 네트워크 구조를 갖는다.
또한, 본 발명은 상기 딥러닝 기반의 영화 장면 생성 방법을 수행하기 위한 기록 매체에 저장된 컴퓨터 프로그램을 더 제공할 수 있다.
본 발명은 다음과 같은 우수한 효과를 가진다.
본 발명의 딥러닝 기반의 영화 장면 생성 방법에 의하면, 영화 장면을 생성하고자 하는 시나리오를 개선된 Mirror GAN 모델에 입력하여 입력된 시나리오와 유사한 영화 장면을 생성할 수 있어, 영상 콘텐츠 제작에 있어 소요되는 비용과 시간을 최소화할 수 있다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 영화 장면 생성 방법의 순서도,
도 2는 본 발명의 일 실시예에 따른 데이터 셋의 형성 과정을 보여주는 도면,
도 3은 본 발명의 일 실시예에 따른 개선된 Mirror GAN의 구조를 보여주는 도면이다.
도 2는 본 발명의 일 실시예에 따른 데이터 셋의 형성 과정을 보여주는 도면,
도 3은 본 발명의 일 실시예에 따른 개선된 Mirror GAN의 구조를 보여주는 도면이다.
본 발명에서 사용되는 용어는 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어도 있는데 이 경우에는 단순한 용어의 명칭이 아닌 발명의 상세한 설명 부분에 기재되거나 사용된 의미를 고려하여 그 의미가 파악되어야할 것이다.
이하, 첨부한 도면에 도시된 바람직한 실시예들을 참조하여 본 발명의 기술적 구성을 상세하게 설명한다.
그러나, 본 발명은 여기서 설명되는 실시예에 한정되지 않고 다른 형태로 구체화될 수도 있다. 명세서 전체에 걸쳐 동일한 참조번호는 동일한 구성요소를 나타낸다.
본 발명의 딥러닝 기반의 영화 장면 생성 방법은 각 액션별로 분류된 시나리오와 영화 장면이 학습된 딥러닝에 영화 장면을 생성하고자 하는 시나리오를 입력하여 관련성이 높은 유사한 영화 장면을 새롭게 생성하여 제공할 수 있는 방법이다.
또한, 상기 딥러닝 기반의 영화 장면 생성 방법은 실질적으로 컴퓨터에 의해 수행되며 상기 컴퓨터에는 상기 심전도 신호의 기저선 변동 잡음 제거 방법이 수행되기 위한 컴퓨터 프로그램이 저장된다.
또한, 상기 컴퓨터는 일반적인 퍼스널 컴퓨터뿐만 아니라, 스마트폰이나 태블릿 PC와 같은 스마트 기기를 포함하는 광의의 컴퓨팅 장치를 의미한다.
또한, 상기 컴퓨터 프로그램은 별도의 기록 매체에 저장되어 제공될 수 있으며, 상기 기록 매체는 본 발명을 위하여 특별히 설계되어 구성된 것을이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수 있다.
예를 들면, 상기 기록 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD, DVD와 같은 광 기록 매체, 자기 및 광 기록을 겸할 수 있는 자기-광 기록 매체, 롬, 램, 플래시 메모리 등 단독 또는 조합에 의해 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치일 수 있다.
또한, 상기 컴퓨터 프로그램은 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등이 단독 또는 조합으로 구성된 프로그램일 수 있고, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라, 인터프리터 등을 사용하여 컴퓨터에 의해 실행될 수 있는 고급 언어 코드로 짜여진 프로그램일 수 있다.
이하에서는 본 발명의 일 실시예에 따른 딥러닝 기반의 영화 장면 생성 방법에 대해 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 영화 장면 생성 방법의 순서도, 도 2는 본 발명의 일 실시예에 따른 데이터 셋의 형성 과정을 보여주는 도면, 도 3은 본 발명의 일 실시예에 따른 개선된 Mirror GAN의 구조를 보여주는 도면이다.
도 1 내지 도 3을 참조하면, 본 발명의 딥러닝 기반의 영화 장면 생성 방법은 먼저, 시나리오와 영화 장면을 수집한다(S1000).
여기서, 상기 시나리오는 텍스트 형식이며, 상기 영화 장면은 이미지 형식으로, 아래에서 설명할 GAN 모델의 학습을 위한 데이터를 수집하는 단계이다.
다음, 상기 수집된 시나리오를 액션별로 분류한다(S2000).
이때, 상기 액션별로 분류하기 위해 사전훈련 기반의 언어 모델을 사용한다.
상기 사전훈련 기반의 언어 모델은 자연어 처리의 여러 가지 작업 전 대용량의 문장을 학습한 딥 러닝 모델을 말하며, 본 발명에서는 BERT(Bidirectional Encoder Representations form Transformer) 모델이 사용된다.
상기 BERT 모델은 입력된 문장으로부터 비슷한 의미를 갖는 문장끼리 분류하는 기능을 수행할 수 있으며, 본 발명에서는 각 액션별로 해당하는 시나리오를 분류하였다.
이를 위해 상기 BERT 모델을 사전에 액션별로 시나리오를 학습하였으며, 상기 액션 항목들은 영화 장면에 따라 다양하게 설정될 수 있다.
다음, 학습하기 위한 데이터 셋을 구축한다(S3000).
상기 데이터 셋은 액션별로 분류된 시나리오와 수집된 영화 장면들을 매칭하여 데이터 셋을 구축하며, 각 시나리오와 관련성이 높은 유의미한 영화 장면들을 서로 그룹이 이루어지도록 데이터 셋을 구축한다.
다음, 상기 데이터 셋을 이용하여, GAN(Generative Adversarial Network) 모델에 학습한다(S4000).
상기 GAN 모델은 딥러닝 중의 하나로 적대적 생성 모델로 불리기도 하며, 기존의 딥러닝이 예측, 분류 등을 수행하는 업무를 수행하는 반면, 입력된 데이터에 기반하여 유사한 이미지를 생성하는 기능을 수행하는 알고리즘으로, 본 발명에서는 수정된 Mirror GAN 모델을 사용한다.
여기서, 상기 Mirror GAN 모델은 크게 RNN(Recurrent Neural Network)을 통해 입력된 텍스트 데이터의 시각 정보(워드 벡터(Word vector), 문장 벡터(Setence vector))를 추출하는 임베딩 작업을 수행하는 STEM(Semantic Text Embedding Module) 모듈, 상기 STEM 모듈을 통해 추출된 임베딩 정보를 기반으로 이미지를 생성하는 GLAM(Global-Local Collaborative Attentive module) 모듈 및 상기 생성된 이미지를 CNN(Convolutional Neural Network)과 RNN을 거쳐 관련성이 높은 텍스트로 변환하는 STRAM(Smemantic Text REgeneration and Alignment Module)모듈로 구성되며, 각 모듈들을 통해 학습되는 과정과 이미지가 생성되는 과정은 이미 공지된 기술로 상세한 설명은 생략한다.
한편, 상기 STREAM 모듈에서는 STREAM 모듈에서는 생성된 이미지를 텍스트로 변환하기 위해 CNN과 RNN을 사용하였으나, 본 발명에서는 RNN을 대체하여 Transfomer Decoder를 사용하는 개선된 Mirror GAN 모델을 사용한다.
상기 Transformer Decoder는 기존의 RNN 보다 연산량이 적고, 성능이 우수하다는 장점이 있으며, 이에 따라 기존의 Mirror GAN 모델을 사용할 때 보다 우수한 성능을 나타낼 수 있다.
다음, 생성하고자 하는 영화 장면의 시나리오를 학습된 GAN 모델에 입력하여 입력된 시나리오와 관련성이 높은 유사한 영화 장면을 생성한다(S5000).
즉, 본 발명은 상술한 과정들을 통해 시나리오에 대한 영화 장면을 생성할 수 있어 영상 콘텐츠 제작에 소요되는 비용과 시간을 최소화할 수 있다는 장점이 있다.
이상에서 살펴본 바와 같이 본 발명은 바람직한 실시예를 들어 도시하고 설명하였으나, 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다.
Claims (5)
- 시나리오와 영화 장면을 수집하는 단계;
수집된 시나리오를 액션별로 분류하는 단계
액션별로 분류된 시나리오에 대응되는 상기 영화 장면을 매칭하여 학습 데이터 셋을 구축하는 단계;
상기 데이터 셋을 GAN(Generative Adversarial Network) 모델에 학습하는 단계; 및
영화 장면을 생성하고자 하는 시나리오를 학습된 GAN 모델에 입력하여 유사한 영화 장면을 생성하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 기반의 영화 장면 생성 방법. - 제 1 항에 있어서,
상기 액션별로 분류하는 단계는 입력된 시나리오를 사전 학습 언어 모델인 BERT 모델을 이용하여 분류하는 것을 특징으로 하는 딥러닝 기반의 영화 장면 생성 방법. - 제 1 항에 있어서,
상기 GAN 모델은 Mirror GAN 모델인 것을 특징으로 하는 딥러닝 기반의 영화 장면 생성 방법. - 제 3 항에 있어서,
상기 Mirror GAN 모델에 구성된 모듈 중 STREAM 모델은 CNN과 Transformer Encoder 기반의 네트워크 구조를 갖는 것을 특징으로하는 딥러닝 기반의 영화 장면 생성 방법. - 제 1 항 내지 제 4 항 중 어느 한 항의 상기 딥러닝 기반의 영화 장면 생성 방법을 수행하기 위한 기록 매체에 저장된 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200135148A KR20220051575A (ko) | 2020-10-19 | 2020-10-19 | 딥러닝 기반의 영화 장면 생성 방법. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200135148A KR20220051575A (ko) | 2020-10-19 | 2020-10-19 | 딥러닝 기반의 영화 장면 생성 방법. |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220051575A true KR20220051575A (ko) | 2022-04-26 |
Family
ID=81391478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200135148A KR20220051575A (ko) | 2020-10-19 | 2020-10-19 | 딥러닝 기반의 영화 장면 생성 방법. |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220051575A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117807999A (zh) * | 2024-02-29 | 2024-04-02 | 武汉科技大学 | 基于对抗学习的域自适应命名实体识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200068553A (ko) | 2018-12-05 | 2020-06-15 | 서울대학교산학협력단 | 딥러닝 네트워크를 이용하여 복수의 이미지들로부터 이야기를 생성하기 위한 방법 및 장치 |
KR20200092491A (ko) | 2019-01-11 | 2020-08-04 | 연세대학교 산학협력단 | 자연어 문장을 기반으로 하는 변환 이미지 생성 장치, 방법 및 이를 이용하는 변환 이미지 생성 시스템 |
-
2020
- 2020-10-19 KR KR1020200135148A patent/KR20220051575A/ko not_active Application Discontinuation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200068553A (ko) | 2018-12-05 | 2020-06-15 | 서울대학교산학협력단 | 딥러닝 네트워크를 이용하여 복수의 이미지들로부터 이야기를 생성하기 위한 방법 및 장치 |
KR20200092491A (ko) | 2019-01-11 | 2020-08-04 | 연세대학교 산학협력단 | 자연어 문장을 기반으로 하는 변환 이미지 생성 장치, 방법 및 이를 이용하는 변환 이미지 생성 시스템 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117807999A (zh) * | 2024-02-29 | 2024-04-02 | 武汉科技大学 | 基于对抗学习的域自适应命名实体识别方法 |
CN117807999B (zh) * | 2024-02-29 | 2024-05-10 | 武汉科技大学 | 基于对抗学习的域自适应命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ferreira et al. | Learning to dance: A graph convolutional adversarial network to generate realistic dance motions from audio | |
Chiu et al. | How to train your avatar: A data driven approach to gesture generation | |
CN110276259A (zh) | 唇语识别方法、装置、计算机设备及存储介质 | |
JP7475423B2 (ja) | ビデオからの同期した音声生成 | |
KR101882906B1 (ko) | 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체 | |
US20220215052A1 (en) | Summarization of video artificial intelligence method, system, and apparatus | |
TW202238532A (zh) | 自語音之三維臉部動畫 | |
CN113065549A (zh) | 基于深度学习的文档信息抽取方法及装置 | |
Luo et al. | Synchronous bidirectional learning for multilingual lip reading | |
Oghbaie et al. | Advances and challenges in deep lip reading | |
CN117456587A (zh) | 一种基于多模态信息控制的说话人脸视频生成方法及装置 | |
Rahman et al. | Tribert: Full-body human-centric audio-visual representation learning for visual sound separation | |
KR102610431B1 (ko) | 인공지능 분석 기반 프로그램 소스코드의 요약문 생성 장치 및 방법 | |
KR20220051575A (ko) | 딥러닝 기반의 영화 장면 생성 방법. | |
Rahman et al. | TriBERT: Human-centric audio-visual representation learning | |
Kaddoura | A Primer on Generative Adversarial Networks | |
KR102279772B1 (ko) | 시간의 특성을 고려한 영상 생성 방법 및 그를 위한 장치 | |
Parmar et al. | Abstractive text summarization using artificial intelligence | |
Liu et al. | Real-time speech-driven animation of expressive talking faces | |
CN114399646B (zh) | 一种基于Transformer结构的图像描述方法和装置 | |
Xu et al. | Video Object Segmentation: Tasks, Datasets, and Methods | |
Kim et al. | Co-Speech Gesture Generation via Audio and Text Feature Engineering | |
CN115438210A (zh) | 文本图像生成方法、装置、终端及计算机可读存储介质 | |
KR102382191B1 (ko) | 음성 감정 인식 및 합성의 반복 학습 방법 및 장치 | |
Hong et al. | Interpretable text-to-image synthesis with hierarchical semantic layout generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |