KR20210153386A

KR20210153386A - 멀티미디어 컨텐츠를 생성하는 디스플레이 장치 및 그 동작방법

Info

Publication number: KR20210153386A
Application number: KR1020200070358A
Authority: KR
Inventors: 아난트 바이잘; 쇼빗 자인; 박상신; 조은애
Original assignee: 삼성전자주식회사
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2021-12-17
Also published as: US11699289B2; US20210390314A1; WO2021251632A1

Abstract

멀티미디어 컨텐츠를 생성하는 디스플레이 장치에 관한 것으로, 디스플레이, 하나 이상의 인스트럭션들을 저장하는 메모리, 및 메모리에 저장된 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고, 프로세서는, 멀티미디어 컨텐츠의 플롯(plot) 정보를 획득하고, 제1 AI 모델을 이용하여, 플롯 정보에 대응하는 멀티미디어 컨텐츠의 하나 이상의 시퀀스들에 대한 시퀀스 정보를 생성하며, 제2 AI 모델을 이용하여, 시퀀스 정보에 대응하는 하나 이상의 시퀀스들 각각에 대응하는 장면 정보를 생성하고, 장면 정보에 기초하여, 멀티미디어 컨텐츠를 생성하며, 멀티미디어 컨텐츠를 출력하도록 디스플레이를 제어하는 디스플레이 장치가 개시된다.

Description

멀티미디어 컨텐츠를 생성하는 디스플레이 장치 및 그 동작방법{Display device for generating multimedia contents and method thereof}

다양한 실시예들은 디스플레이 장치 및 그 동작방법에 관한 것으로서, 더욱 상세하게는 AI 모델을 이용하여, 멀티미디어 컨텐츠를 생성하고, 생성한 멀티미디어 컨텐츠를 출력할 수 있는 디스플레이 장치 및 그 동작방법에 관한 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 목적하는 결과를 도출하거나 목적하는 동작을 수행하는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다. 기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 딥러닝 등의 기계학습 알고리즘을 활용하여, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술을 구현하기 위한 요소 기술들은, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.

다양한 실시예들은, AI 모델을 이용하여, 멀티미디어 컨텐츠의 장면 정보를 생성하고, 생성한 장면 정보에 기초하여, 멀티미디어 컨텐츠를 생성하고, 생성된 멀티미디어 컨텐츠를 출력할 수 있는 디스플레이 장치 및 그 동작방법을 제공할 수 있다.

일 실시예에 따른 멀티미디어 컨텐츠를 생성하는 디스플레이 장치는, 디스플레이, 하나 이상의 인스트럭션들을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고, 상기 프로세서는, 상기 멀티미디어 컨텐츠의 플롯(plot) 정보를 획득하고, 제1 AI 모델을 이용하여, 상기 플롯 정보에 대응하는 상기 멀티미디어 컨텐츠의 하나 이상의 시퀀스들에 대한 시퀀스 정보를 생성하며, 제2 AI 모델을 이용하여, 상기 시퀀스 정보에 대응하는 상기 하나 이상의 시퀀스들 각각에 대응하는 장면 정보를 생성하고, 상기 장면 정보에 기초하여, 상기 멀티미디어 컨텐츠를 생성하며, 상기 멀티미디어 컨텐츠를 출력하도록 상기 디스플레이를 제어할 수 있다.

일 실시예에 따른 프로세서는, 상기 멀티미디어 컨텐츠의 장르 정보 및 감정 정보를 획득하고, 제3 AI 모델을 이용하여, 상기 멀티미디어 컨텐츠의 장르 정보 및 감정 정보에 대응하는 상기 멀티미디어 컨텐츠의 플롯 정보를 생성할 수 있다.

일 실시예에 따른 멀티미디어 컨텐츠의 감정 정보는, 상기 멀티미디어 컨텐츠의 재생 시간에 따른 긍정도(valence) 정보와 상기 멀티미디어 컨텐츠의 재생 시간에 따른 각성도(arousal) 정보를 포함할 수 있다.

일 실시예에 따른 프로세서는, 스토리 데이터 베이스로부터, 상기 멀티미디어 컨텐츠의 스토리 정보를 랜덤하게 획득하고, 상기 제3 AI 모델은, 상기 획득한 스토리 정보, 장르 정보 및 감정 정보가 입력되면, 상기 플롯 정보를 출력하도록 학습된 모델일 수 있다.

일 실시예에 따른 제1 AI 모델은 상기 플롯 정보가 입력되면, 상기 시퀀스 정보를 출력하도록 학습된 모델일 수 있다.

일 실시예에 따른 제2 AI 모델은 상기 멀티미디어 컨텐츠의 등장 인물(character) 정보와 상기 시퀀스 정보가 입력되면, 상기 장면 정보를 출력하도록 학습된 모델일 수 있다.

일 실시예에 따른 프로세서는, 상기 플롯 정보로부터 상기 멀티미디어 컨텐츠의 등장 인물 정보를 획득할 수 있다.

일 실시예에 따른 장면 정보는, 장면의 배경 정보, 장면에 등장하는 인물에 대한 정보, 등장 인물의 행동에 대한 정보, 및 등장 인물의 대화 내용 중 적어도 하나를 포함할 수 있다.

일 실시예에 따른 프로세서는, 상기 멀티미디어 컨텐츠의 등장 인물 정보에 기초하여, 등장 인물 데이터 베이스로부터 등장 인물을 선택하고, 선택된 등장 인물과 상기 장면 정보에 기초하여, 상기 멀티미디어 컨텐츠를 생성할 수 있다.

일 실시예에 따른 디스플레이 장치는, 오디오 출력부를 더 포함하고, 상기 프로세서는 상기 장면 정보에 기초하여, 상기 장면에 대한 감정 정보를 획득하고, 상기 감정 정보와 상기 멀티미디어 컨텐츠의 장르 정보에 기초하여, 상기 장면에 대한 배경 음악을 생성하며, 상기 배경 음악을 출력하도록 상기 오디오 출력부를 제어할 수 있다.

일 실시예에 따른 프로세서는, 제4 AI 모델을 이용하여, 상기 감정 정보와 상기 멀티미디어 컨텐츠의 장르 정보에 대응하는, 상기 배경 음악을 생성하고, 상기 제4 AI 모델은, 상기 감정 정보 및 상기 멀티미디어 컨텐츠의 장르 정보가 입력되면, 상기 배경 음악을 생성하도록 학습된 모델일 수 있다.

일 실시예에 따른 멀티미디어 컨텐츠를 생성하는 디스플레이 장치의 동작방법은, 상기 멀티미디어 컨텐츠의 플롯 정보를 획득하는 단계, 제1 AI 모델을 이용하여, 상기 플롯 정보에 대응하는 상기 멀티미디어 컨텐츠의 하나 이상의 시퀀스들에 대한 시퀀스 정보를 생성하는 단계, 제2 AI 모델을 이용하여, 상기 시퀀스 정보에 대응하는 상기 하나 이상의 시퀀스들 각각에 대응하는 장면 정보를 생성하는 단계, 상기 장면 정보에 기초하여, 상기 멀티미디어 컨텐츠를 생성하는 단계, 및 상기 멀티미디어 컨텐츠를 출력하는 단계를 포함할 수 있다.

일 실시예에 따른 디스플레이 장치는, 멀티미디어 컨텐츠의 장르 정보 및 감정 정보의 입력만으로, AI 모델을 이용하여, 멀티미디어 컨텐츠를 생성할 수 있으므로, 사용자가 멀티미디어 컨텐츠의 장면 정보(스크립트 정보)를 작성(writing)하지 않아도 된다.

일 실시예에 따른 디스플레이 장치는 AI 모델을 이용하여, 멀티미디어 컨텐츠의 플롯 정보에 기초하여, 멀티미디어 컨텐츠의 장면 정보를 생성하고, 장면 정보에 기초하여, 멀티미디어 컨텐츠를 생성할 수 있으므로, 사용자는 멀티미디어 컨텐츠의 장면 정보(스크립트 정보)를 작성(writing)할 필요 없이, 멀티미디어 컨텐츠의 플롯 정보만 작성하여, 멀티미디어 컨텐츠를 생성할 수 있다.

이에 따라, 디스플레이 장치 사용자는 전문가의 도움 없이, 디스플레이 장치를 이용하여, 다양한 멀티미디어 컨텐츠를 용이하게 생성하고, 시청할 수 있다.

도 1은 일 실시예에 따른 디스플레이 장치가 멀티미디어 컨텐츠를 생성하는 과정을 나타내는 도면이다.
도 2는 일 실시예에 따른 디스플레이 장치가 멀티미디어 컨텐츠의 플롯 정보를 생성하는 방법을 나타내는 흐름도이고, 도 3은 도 2를 설명하기 위해 참조되는 도면이다.
도 4는 일 실시예에 따른 감정 그래프를 나타낸다.
도 5는 일 실시예에 따른 디스플레이 장치의 동작 방법을 나타내는 흐름도이다.
도 6은 일 실시예에 따른 디스플레이 장치가 제2 AI 모델을 이용하여, 멀티미디어 컨텐츠의 시퀀스 정보를 생성하는 방법을 나타내는 도면이다.
도 7은 일 실시예에 따른 디스플레이 장치가 제3 AI 모델을 이용하여, 멀티미디어 컨텐츠의 장면 정보를 생성하는 방법을 나타내는 도면이다.
도 8은 일 실시예에 따른 장면 정보의 일 예를 나타내는 도면이다.
도 9는 일 실시예에 따른 디스플레이 장치가 장면 정보에 기초하여, 멀티미디어 컨텐츠를 생성하는 방법을 나타내는 도면이다.
도 10은 일 실시예에 따른 디스플레이 장치가 멀티미디어 컨텐츠에 대응하는 배경 음악을 생성하는 방법을 나타내는 흐름도이고, 도 11은 도 10의 방법을 설명하기 위해 참조되는 도면이다.
도 12는 일 실시예에 따른 디스플레이 장치의 구성을 나타내는 블록도이다.
도 13은 일 실시예에 따른 프로세서의 구성을 나타내는 블록도이다.
도 14는 일 실시예에 따른 디스플레이 장치 및 서버가 서로 연동함으로써, 멀티미디어 컨텐츠를 생성하는 예시를 나타내는 도면이다.
도 15는 다른 실시예에 따른 디스플레이 장치의 구성을 나타내는 블록도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 명세서의 실시예에서 “사용자”라는 용어는 시스템, 기능 또는 동작을 제어하는 사람을 의미하며, 개발자, 관리자 또는 설치 기사를 포함할 수 있다.

도 1은 일 실시예에 따른 디스플레이 장치가 멀티미디어 컨텐츠를 생성하는 과정을 나타내는 도면이다.

일 실시예에 따른 디스플레이 장치(100)는, TV일 수 있으나, 이는 일 실시예에 불과하며, 디스플레이를 포함하는 다양한 형태로 구현될 수 있다. 예를 들어, 디스플레이 장치(100)는 휴대폰, 태블릿 PC, 디지털 카메라, 캠코더, 노트북 컴퓨터(laptop computer), 태블릿 PC, 데스크탑, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 착용형 기기(wearable device) 등과 같은 다양한 전자 장치로 구현될 수 있다. 특히, 실시예들은 사이니지나 TV와 같이 디스플레이가 대형인 디스플레이 장치에서 용이하게 구현될 수 있으나, 이에 한정되는 것은 아니다. 또한, 디스플레이 장치(100)는 고정형 또는 이동형일 수 있으며, 디지털 방송 수신이 가능한 디지털 방송 수신기일 수 있다.

디스플레이 장치(100)는 평면(flat) 디스플레이 장치뿐만 아니라, 곡률을 가지는 화면인 곡면(curved) 디스플레이 장치 또는 곡률을 조정 가능한 가변형(flexible) 디스플레이 장치로 구현될 수 있다. 디스플레이 장치(100)의 출력 해상도는 예를 들어, HD(High Definition), Full HD, Ultra HD, 또는 Ultra HD 보다 더 선명한 해상도를 포함할 수 있다.

본 개시에서 “사용자”라는 용어는 디스플레이 장치(100)의 기능 또는 동작을 제어하는 사람을 의미하며, 관리자 또는 설치 기사를 포함할 수 있다.

본 개시에서, “멀티미디어 컨텐츠(multimedia contents)”라는 용어는, 이미지, 비디오, 오디오, 텍스트 등 다양한 미디어의 복합체를 의미할 수 있다. 예를 들어, 멀티미디어 컨텐츠는 비디오를 포함할 수 있으며, 비디오는, 영화, 드라마, 애니메이션, 광고 등의 동영상을 의미할 수 있으나, 이에 한정되지 않는다.

일 실시예에 따른 디스플레이 장치(100)는 멀티미디어 컨텐츠의 장르 정보(10) 및 감정 정보(20)를 획득할 수 있다.

예를 들어, 디스플레이 장치(100)는 생성하고자 하는 멀티미디어 컨텐츠의 장르 정보(10) 및 감정 정보(20)는 사용자로부터 입력 받을 수 있다. 장르 정보(10) 및 감정 정보(20)는 제어 장치를 통해 디스플레이 장치(100)로 입력될 수 있다. 제어 장치는 리모컨 또는 휴대폰과 같이 디스플레이 장치(100)를 제어하기 위한 다양한 형태의 장치로 구현될 수 있다.

일 실시예에 따른 멀티미디어 컨텐츠의 장르 정보(10)는 멀티미디어 컨텐츠의 장르를 나타내는 정보로, 멀티미디어 컨텐츠의 줄거리, 등장인물, 주제, 화면 구성, 편집, 분위기 등에 따라 결정될 수 있다. 멀티미디어 컨텐츠의 장르의 예로는, 액션, 모험, 애니메이션, 코미디, 범죄, 다큐, 드라마, 가족, 판타지, 누와르, 역사, 공포, 뮤지컬, 미스터리, 로맨스(멜로), 공상 과학, 스포츠, 스릴러, 전쟁 등을 포함할 수 있으나, 이에 한정되지 않는다.

또한, 멀티미디어 컨텐츠의 장르 정보(10)는 하나의 장르를 포함하거나, 복수의 장르들을 포함할 수 있다. 멀티미디어 컨텐츠의 장르 정보(10)가 복수의 장르들을 포함하는 경우, 복수의 장르들 각각에 대응하는 가중치를 포함할 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 멀티미디어 컨텐츠의 장르 정보(10)가, 모험, 코미디, 액션과 같이 3개의 장르를 포함하는 경우, 모험은 35%, 코미디는 5%, 액션은 60%로 가중치가 설정될 수 있다.

일 실시예에 따른 멀티미디어 컨텐츠의 감정 정보(20)는 멀티미디어 컨텐츠의 재생 시간에 따른 감정을 나타낼 수 있다. 예를 들어, 멀티미디어 컨텐츠의 감정 정보(20)는, 멀티미디어 컨텐츠의 종류가 영화인 경우, 영화가 재생됨에 따라 영화에서 표현되는 감정을 의미할 수 있다.

도 1에 도시된 바와 같이, 감정 정보(20)는 긍정도(valence) 정보와 각성도(arousal) 정보를 포함할 수 있으며, 긍정도 정보는, 시간에 따른 긍정도를 나타내는 그래프와 시간에 따른 각성도를 나타내는 그래프를 포함할 수 있다.

도 1에서는 감정 정보를 긍정도와 각성도의 파라미터로 나타내는 것을 도시하였지만, 이에 한정되지 않으며, 다양한 감정 모델에서 이용되는 파라미터들을 이용하여, 멀티미디어 컨텐츠의 감정 정보를 나타낼 수 있다. 또한, 도 1에서는 시간에 따른 감정 정보를 그래프로 입력 받는 예를 도시하였으나, 이에 한정되지 않으며, 다양한 방법으로 입력 받을 수 있다.

일 실시예에 따른 디스플레이 장치(100)는 멀티미디어 컨텐츠의 장르 정보 및 감정 정보에 기초하여, 멀티미디어 컨텐츠의 플롯(plot) 정보를 생성할 수 있다(S10).

멀티미디어 컨텐츠의 플롯 정보는 멀티미디어 컨텐츠의 플롯을 나타내는 정보로, 멀티미디어 컨텐츠의 플롯은, 멀티미디어 컨텐츠를 구성하는 스토리(story), 또는 스토리에 나오는 여러 사건을 짜임새 있게 재구성하는 것을 의미한다. 예를 들어, 스토리가 단순한 시간적 순서에 따른 사건의 서술을 의미하는 것이라면, 플롯은 시간적 순서에만 의존하지 않고 사건의 서술에 논리적인 인과 관계를 부여하여 놓은 것을 의미한다. 이에 따라, 동일한 스토리지만 다루는 방식에 따라 여러 가지 플롯이 생성될 수 있다.

일 실시예에 따른 디스플레이 장치(100)가 플롯 정보를 생성하는 방법에 대해서는 도 2 내지 도 4를 참조하여 자세히 후술하기로 한다.

또한, 일 실시예에 따른 디스플레이 장치(100)는 플롯 정보에 기초하여, 멀티미디어 컨텐츠의 시퀀스 정보를 생성할 수 있다(S20).

멀티미디어 컨텐츠의 시퀀스 정보는, 멀티미디어 컨텐츠를 구성하는 시퀀스들 각각을 나타내는 정보로, 멀티미디어 컨텐츠의 시퀀스는 멀티미디어 컨텐츠를 구성하는 사건들 중 서로 연관된 작은 사건들이 연쇄되어 이루어지는 내용상의 단위를 의미한다. 예를 들어, 스토리의 큰 흐름에서 내용상 어느 정도 독립성을 띠는 세부적인 사건의 집합(연쇄)을 의미한다. 쇼트(short)나 장면(scene)이 모여 시퀀스가 되며, 이러한 시퀀스가 모여서 하나의 스토리가 이루어진다.

일 실시예에 따른 디스플레이 장치(100)가 시퀀스 정보를 생성하는 방법에 대해서는 도 5 및 도 6을 참조하여 자세히 후술하기로 한다.

또한, 일 실시예에 따른 디스플레이 장치(100)는 시퀀스 정보에 기초하여, 멀티미디어 컨텐츠의 장면 정보를 생성할 수 있다(S30).

멀티미디어 컨텐츠의 장면 정보는, 시퀀스를 구성하는 장면들 각각을 나타내는 정보로, 멀티미디어 컨텐츠의 장면은 멀티미디어 컨텐츠를 구성하는 사건들 중 같은 장소에서 마무리되는 하나의 사건을 의미하며, 하나의 시퀀스는 복수의 장면들로 구성된다. 또한, 하나의 장면은 복수의 쇼트들로 구성될 수 있다. 또한, 일 실시예에 따른 장면 정보는 스크립트 정보를 포함할 수 있다.

일 실시예에 따른 디스플레이 장치(100)가 장면 정보를 생성하는 방법에 대해서는 도 5, 도 7 및 도 8을 참조하여 자세히 후술하기로 한다.

또한, 일 실시예에 따른 디스플레이 장치(100)는 멀티미디어 컨텐츠의 장면 정보에 기초하여, 멀티미디어 컨텐츠를 생성하고(S40), 생성된 멀티미디어 컨텐츠를 디스플레이에 출력할 수 있다.

일 실시예에 따른 디스플레이 장치(100)가 멀티미디어 컨텐츠를 생성하는 방법에 대해서는 도 5 및 도 9를 참조하여 자세히 후술하기로 한다.

도 2는 일 실시예에 따른 디스플레이 장치가 멀티미디어 컨텐츠의 플롯 정보를 생성하는 방법을 나타내는 흐름도이고, 도 3은 도 2를 설명하기 위해 참조되는 도면이다.

도 2를 참조하면, 일 실시예에 따른 디스플레이 장치(100)는 생성하고자 하는 멀티미디어 컨텐츠의 장르 정보 및 감정 정보를 획득할 수 있다(S210).

일 실시예에 따른 장르 정보(10)는 하나의 장르를 포함할 수도 있으며, 복수의 장르들을 포함할 수도 있다. 예를 들어, 도 3에 도시된 바와 같이, 멀티미디어 컨텐츠의 장르 정보(10)는, 모험, 코미디, 액션과 같이 3개의 장르를 포함할 수 있다. 또한, 장르 정보(10)가 복수의 장르들을 포함하는 경우, 복수의 장르들 각각에는 가중치가 설정될 수 있다. 예를 들어, 모험은 35%, 코미디는 5%, 액션은 60%로 가중치가 설정될 수 있다.

또한, 일 실시예에 따른 감정 정보(20)는 긍정도(valence) 정보와 각성도(arousal) 정보를 포함할 수 있다. 예를 들어, 도 3에 도시된 바와 같이, 멀티미디어 컨텐츠의 감정 정보(20)는 시간에 따른 긍정도를 나타내는 그래프와 시간에 따른 각성도를 나타내는 그래프를 포함할 수 있다. 이때, 시간은 멀티미디어 컨텐츠의 재생 시간을 나타낼 수 있다.

일 실시예에 다른 긍정도 정보 및 각성도 정보는 이하, 도 4를 참조하여 자세히 설명한다.

도 4는 일 실시예에 따른 감정 그래프를 나타낸다.

도 4의 감정 그래프는 인간의 감정을 각성도(arousal)와 긍정도(valence)의 척도를 이용하여, 좌표로 나타낸 그래프이다. 예를 들어, 감정의 각성의 정도와 각성이 긍정인지 부정인지에 따라 좌표계에서 감정의 위치를 결정할 수 있다. 예를 들어, “행복한(happy)”, “아주 기쁜(delighted)”,”만족한(contet)” 등의 감정은 긍정도(valence) 축에서 양(positive)의 값을 가지며, “좌절감을 느끼는(frustrated)”, “화난(angry)”, “우울한(depressed)” 등의 감정은 긍정도(valence) 축에서 음(negative)의 값을 가질 수 있다. 또한, “긴장한(tense)”, “흥분한(excited)”, “화난(angry)”의 경우, 각성도(arousal) 축에서 양(positive)의 값을 가지며, “피곤한(tired)”, “차분한(calm)”, “지루한(bored)”의 경우, 각성도(arousal) 축에서 음(negative)의 값을 가진다.

예를 들어, 행복함(happy)”의 경우, 각성도(arousal)와 긍정도(valence) 모두 양(positive)의 값을 가진다.

따라서, 시간에 따른 각성도 그래프 및 긍정도 그래프는, 멀티미디어 컨텐츠의 재생 시간에 따라, 멀티미디어 컨텐츠에 의해 표현되는 감정의 각성의 정도와 각성이 긍정인지 부정인지를 나타낼 수 있다.

한편, 도 3에서는 감정 정보를 긍정도와 각성도의 파라미터로 나타내는 것을 도시하였지만, 이에 한정되지 않으며, 다양한 감정 모델에서 이용되는 파라미터들을 이용하여, 감정 정보를 나타낼 수 있다.

다시, 도 2를 참조하면, 일 실시예에 따른 디스플레이 장치(100)는 제1 AI 모델을 이용하여, 장르 정보 및 감정 정보에 대응하는 멀티미디어 컨텐츠의 플롯 정보를 생성할 수 있다(S220).

이에 대해서는 도 3을 참조하여 자세히 설명하기로 한다.

도 3은 일 실시예에 따른 디스플레이 장치(100)가 제1 AI 모델(300)을 이용하여, 멀티미디어 컨텐츠의 플롯 정보를 생성하는 방법을 나타내는 도면이다.

도 3을 참조하면, 멀티미디어 컨텐츠의 스토리 정보(30), 멀티미디어 컨텐츠의 장르 정보(10) 및 멀티미디어 컨텐츠의 감정 정보(20)는 제1 AI 모델(300)에 입력될 수 있다.

일 실시예에 따른 디스플레이 장치(100)는 멀티미디어 컨텐츠의 스토리 정보(30)를 획득할 수 있으며, 멀티미디어 컨텐츠의 스토리 정보(30)는, 스토리 데이터 베이스(35)로부터 랜덤하게 추출된 스토리를 포함할 수 있다. 스토리 데이터 베이스(35)는, 다양한 스토리들을 기 저장하는 데이터 베이스일 수 있으며, 디스플레이 장치(100)에 포함된 데이터 베이스이거나, 외부 장치에 포함되는 데이터 베이스일 수 있다.

일 실시예에 따른 제1 AI 모델(300)은 시퀀스 투 시퀀스(Sequence-to-Sequence) 구조를 가지는 모델일 수 있으며, 제1 AI 모델(300)은 시퀀스로 구성된 멀티미디어 컨텐츠 스토리 정보(30)를 입력 받아, 시퀀스로 구성된 멀티미디어 컨텐츠의 플롯 정보(40)를 출력하도록 학습된 모델일 수 있다.

제1 AI 모델(300)에 멀티미디어 컨텐츠 스토리 정보(30), 멀티미디어 컨텐츠의 장르 정보(10) 및 멀티미디어 컨텐츠의 감정 정보(20)가 입력되면, 멀티미디어 컨텐츠 스토리 정보(30), 멀티미디어 컨텐츠의 장르 정보(10) 및 멀티미디어 컨텐츠의 감정 정보(20) 각각을 벡터로 변환하는 임베딩(embedding)이 수행될 수 있다.

제1 AI 모델(300)은 인코더(320)와 디코더(330)를 포함하는 형태일 수 있으며, 인코더(320) 및 디코더(330)는 하나 이상의 뉴럴 네트워크들을 포함할 수 있다. 임베딩된 벡터들(310)은 인코더(320)로 입력될 수 있다. 멀티미디어 컨텐츠 스토리 정보(30)에 포함되는 문장들 각각의 모든 단어들은 임베딩되어 순차적으로 인코더(320)에 입력될 수 있다. 인코더(320)는 멀티미디어 컨텐츠의 스토리 정보(30)에 포함되는 단어 정보들 및 멀티미디어 컨텐츠의 장르 정보 및 감정 정보를 압축한 컨텍스트 벡터(325)를 출력할 수 있다.

디코더(330)는 입력된 컨텍스트 벡터(325)를 처리하여, 복수의 벡터들(340)을 출력할 수 있으며, 출력된 벡터들(340)은 소프트맥스 함수 등에 기초하여, 단어들로 변환될 수 있다. 이때, 변환된 단어들에 기초하여, 멀티미디어 컨텐츠의 플롯 정보(40)가 생성될 수 있다. 예를 들어, 변환된 단어들로 구성되는 문장들이 멀티미디어 컨텐츠의 플롯을 나타낼 수 있다.

일 실시예에 따른 제1 AI 모델(300)은 생성된 멀티미디어 컨텐츠의 플롯 정보(40)를 출력할 수 있다.

도 5는 일 실시예에 따른 디스플레이 장치의 동작 방법을 나타내는 흐름도이다.

도 5를 참조하면, 일 실시예에 따른 디스플레이 장치는 멀티미디어 컨텐츠의 플롯 정보를 획득할 수 있다(S510).

이때, 멀티미디어 컨텐츠의 플롯 정보는 도 2내지 도 4에서 설명한 바와 같이, 멀티미디어 컨텐츠의 스토리 정보, 멀티미디어 컨텐츠의 장르 정보 및 감정 정보에 기초하여 생성된 플롯 정보일 수 있다. 또는, 플롯 정보는 사용자가 직접 입력한 멀티미디어 컨텐츠의 플롯이거나, 외부 장치로부터 수신한 멀티미디어 컨텐츠의 플롯일 수 있다. 다만, 이에 한정되지 않으며, 다양한 방법으로 멀티미디어 컨텐츠의 플롯 정보를 획득할 수 있다.

일 실시예에 따른 디스플레이 장치(100)는 제2 AI 모델을 이용하여, 멀티미디어 컨텐츠의 플롯 정보에 대응하는 멀티미디어 컨텐츠의 시퀀스 정보를 생성할 수 있다(S520).

520 단계(S520)에 대해서는, 도 6을 참조하여, 자세히 설명하기로 한다.

도 6은 일 실시예에 따른 디스플레이 장치가 제2 AI 모델을 이용하여, 멀티미디어 컨텐츠의 시퀀스 정보를 생성하는 방법을 나타내는 도면이다.

도 6을 참조하면, 멀티미디어 컨텐츠의 플롯 정보(40)는 제2 AI 모델(600)로 입력될 수 있다.

일 실시예에 따른 제2 AI 모델(600)은 시퀀스 투 시퀀스(Sequence-to-Sequence) 구조를 가지는 모델일 수 있으며, 제2 AI 모델(600)은 멀티미디어 컨텐츠의 플롯 정보(40)를 입력 받아, 멀티미디어 컨텐츠의 시퀀스 정보(50)를 출력하도록 학습된 모델일 수 있다.

일 실시예에 따른 멀티미디어 컨텐츠의 플롯 정보(40)는 복수의 문장들을 포함하며, 복수의 문장들 각각은 복수의 워드들을 포함할 수 있다. 멀티미디어 컨텐츠의 플롯 정보(40)를 구성하는 복수의 워드들은 임베딩되어 복수의 벡터들(610)로 변환될 수 있다.

제2 AI 모델(600)은 인코더(620)와 디코더(630)를 포함하는 형태일 수 있으며, 인코더(620) 및 디코더(630)는 하나 이상의 뉴럴 네트워크들을 포함할 수 있다. 임베딩된 복수의 벡터들(610)은 순차적으로 인코더(620)로 입력될 수 있다. 인코더(620)는 멀티미디어 컨텐츠의 플롯 정보에 포함되는 단어 정보들을 압축한 컨텍스트 벡터(625)를 출력할 수 있다.

디코더(630)는 입력된 컨텍스트 벡터(625)를 처리하여, 복수의 벡터들(640)을 출력할 수 있으며, 출력된 벡터들(640)은 소프트맥스 함수 등에 기초하여, 단어들(645)로 변환될 수 있다. 이때, 변환된 단어들(645)에 기초하여, 멀티미디어 컨텐츠의 시퀀스 정보(50)가 생성될 수 있다. 예를 들어, 변환된 단어들로 구성되는 문장들이 멀티미디어 컨텐츠의 시퀀스 정보를 나타낼 수 있다.

일 실시예에 따른 제2 AI 모델(600)은, 플롯 정보에 대응하는 복수의 시퀀스들에 대한 시퀀스 정보(50)를 출력할 수 있다.

다시 도 5를 참조하면, 일 실시예에 따른 디스플레이 장치(100)는 제3 AI 모델을 이용하여, 멀티미디어 컨텐츠의 시퀀스 정보에 대응하는 멀티미디어 컨텐츠의 장면 정보를 생성할 수 있다(S530).

530 단계(S530)에 대해서는 도 7을 참조하여, 자세히 설명하기로 한다.

도 7은 일 실시예에 따른 디스플레이 장치가 제3 AI 모델을 이용하여, 멀티미디어 컨텐츠의 장면 정보를 생성하는 방법을 나타내는 도면이다.

도 7을 참조하면, 일 실시예에 따른 디스플레이 장치(100)는 등장 인물 정보(710) 및 하나의 시퀀스 정보(720)에 기초하여, 하나의 시퀀스 정보에 포함되는 복수의 장면들에 대한 정보(60)를 생성할 수 있다.

일 실시예에 따른 디스플레이 장치(100)는 멀티미디어 컨텐츠의 플롯 정보에 기초하여 등장 인물 정보(710)를 획득할 수 있다. 예를 들어, 디스플레이 장치(100)는 도 5의 510 단계(S510)에서 획득한 멀티미디어 컨텐츠의 플롯 정보에 기초하여, 등장 인물의 이름, 성별, 나이, 성격 등에 대한 정보를 획득할 수 있다. 이때, 디스플레이 장치(100)는 하나 이상의 뉴럴 네트워크를 이용하여, 멀티미디어 컨텐츠 플롯 정보로부터 등장 인물 정보(710)를 획득할 수 있으나, 이에 한정되지 않는다. 또는, 등장 인물 정보는 사용자 입력에 의해 획득될 수도 있다.

일 실시예에 따른 디스플레이 장치(100)는 제3 AI 모델(700)을 이용하여, 복수의 장면들에 대한 정보를 생성할 수 있다. 도 7을 참조하면, 제3 AI 모델(700)은 등장 인물 정보와 하나의 시퀀스 정보를 입력 받아, 복수의 장면들에 대한 정보를 출력하도록 학습된 모델일 수 있다.

또한, 제3 AI 모델(700)은, 하나 이상의 뉴럴 네트워크들을 포함할 수 있으며, 제3 AI 모델(700)로 입력된 입력 데이터(예를 들어, 등장 인물 정보와 시퀀스 정보)가 히든 레이어들을 통과하여, 출력 데이터(예를 들어, 장면 정보)가 생성될 수 있으며, 제3 AI 모델(700)은, 2개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크를 포함할 수 있다.

이에 따라, 디스플레이 장치(100)는 등장 인물 정보(710)와 하나의 시퀀스 정보(720)를 제3 AI 모델에 입력함으로써, 하나의 시퀀스에 대응하는 복수의 장면들에 대한 정보(60)를 생성할 수 있다.

예를 들어, 도 7에 도시된 바와 같이, 시퀀스 1에 대한 제1 시퀀스 정보(720)와 등장 인물 정보(710)가 제3 AI 모델(700)에 입력되면, 시퀀스 1을 구성하는 장면 1 내지 장면 n의 n개의 장면들에 대한 정보(60)가 출력될 수 있다.

일 실시예에 따른 장면 정보(60)는 장면의 배경 정보, 장면에 등장하는 인물과 인물의 행동에 대한 정보, 등장 인물의 대화 내용 등을 포함할 수 있다. 장면 정보에 대해서는 도 8을 참조하여 자세히 설명하기로 한다.

도 8은 일 실시예에 따른 장면 정보의 일 예를 나타내는 도면이다.

도 8을 참조하면, 장면 정보는 스크립트 정보(800)를 포함할 수 있다.

장면의 스크립트 정보(800)는 장면의 배경이 되는 시간 또는 장소에 대한 정보(810, 장면의 배경 정보)를 포함할 수 있다. 또한, 스크립트 정보는 장면에서 등장 인물의 행동에 대한 묘사(820, 850)를 포함할 수 있다. 또한, 스크립트 정보는 등장 인물의 이름(830)과 함께 등장 인물의 대사(840)를 포함할 수 있다.

도 8의 스크립트 정보(800)는 장면 정보의 일 예에 불과하며, 일 실시예에 따른 장면 정보는 다양한 형식을 가질 수 있다.

다시 도 5를 참조하면, 디스플레이 장치(100)는 장면 정보에 기초하여, 멀티미디어 컨텐츠를 생성할 수 있다(S540).

도 5의 540 단계(S540)에 대해서는 도 9를 참조하여, 자세히 설명하기로 한다.

도 9는 일 실시예에 따른 디스플레이 장치가 장면 정보에 기초하여, 멀티미디어 컨텐츠를 생성하는 방법을 나타내는 도면이다.

도 9를 참조하면, 일 실시예에 따른 디스플레이 장치(100)는 등장 인물 선택부(910) 및 애니메이션 생성부(920)를 포함할 수 있다.

디스플레이 장치(100)는 멀티미디어 컨텐츠의 등장 인물 정보(901)를 획득할 수 있다. 등장 인물 정보(901)는 멀티미디어 컨텐츠에 등장하는 인물의 이름, 성별, 나이, 성격 등에 대한 정보를 포함할 수 있다. 이때, 디스플레이 장치(100)는 하나 이상의 뉴럴 네트워크를 이용하여, 멀티미디어 컨텐츠 플롯 정보로부터 등장 인물 정보를 획득할 수 있으나, 이에 한정되지 않으며 다양한 방법으로 등장 인물 정보를 획득할 수 있다. 또한, 디스플레이 장치(100)는 사용자 입력에 기초하여, 등장 인물 정보를 획득할 수도 있다.

일 실시예에 따른 등장 인물 선택부(910)는 등장 인물 정보(901)에 기초하여, 등장 인물 데이터 베이스(902)로부터 멀티미디어 컨텐츠의 등장 인물을 선택할 수 있다. 등장 인물 데이터 베이스(902)는 복수의 등장 인물들(903)에 대한 정보가 기 저장되어 있다. 예를 들어, 등장 인물 데이터 베이스(902)에는 복수의 등장 인물들(903) 각각에 대한 이름, 성별, 나이, 성격 등에 대한 정보와 함께, 등장 인물에 대한 이미지 데이터가 함께 기 저장되어 있을 수 있다.

이에 따라, 등장 인물 선택부(910)는 복수의 등장 인물들(903) 중 획득한 멀티미디어 컨텐츠의 등장 인물 정보에 매칭되는 등장 인물을 선택하고, 선택된 등장 인물에 대한 정보와 함께, 등장 인물에 대한 이미지 데이터를 애니메이션 생성부(920)로 출력할 수 있다.

일 실시예에 따른 애니메이션 생성부(920)는 장면 정보(60)에 기초하여, 멀티미디어 컨텐츠를 생성할 수 있다. 애니메이션 생성부(920)는 텍스트로 이루어진 장면 정보(60)를 애니메이션으로 변환할 수 있다.

예를 들어, 애니메이션 생성부(920)는 장면 정보(60)에 포함되는 장면의 배경 정보로부터 멀티미디어 컨텐츠의 배경 화면을 생성할 수 있다. 또한, 애니메이션 생성부(920)는 장면 정보(60)에 포함되는 등장 인물의 행동에 대한 정보에 기초하여, 등장 인물에 대한 이미지 데이터를 렌더링할 수 있다. 또한, 애니메이션 생성부(920)는 장면 정보(60)에 포함되는 등장 인물의 대화 내용에 기초하여, 등장 인물의 음성을 생성할 수 있으며, 음성에 매칭되도록 립싱크(lip syncing)를 수행할 수 있다. 예를 들어, 애니메이션 생성부(920)는 텍스트 투 스피치(TTS: Text-to-Speech) 기술을 이용하여, 등장 인물의 대화를 음성 및 립싱크로 변환할 수 있다.

이에 따라, 애니메이션 생성부(920)는 복수의 장면들에 대응하는 멀티미디어 컨텐츠 시퀀스를 생성하고, 디스플레이 장치(100)는 생성된 멀티미디어 컨텐츠 시퀀스를 디스플레이에 출력할 수 있다.

도 10은 일 실시예에 따른 디스플레이 장치가 멀티미디어 컨텐츠에 대응하는 배경 음악을 생성하는 방법을 나타내는 흐름도이고, 도 11은 도 10의 방법을 설명하기 위해 참조되는 도면이다.

도 10을 참조하면, 일 실시예에 따른 디스플레이 장치(100)는 멀티미디어 컨텐츠의 장면 정보를 획득할 수 있다(S1010).

예를 들어, 디스플레이 장치(100)는 도 5 내지 도 8에서 설명한 바와 같이, 제2 AI 모델을 이용하여, 멀티미디어 컨텐츠의 플롯 정보로부터 멀티미디어 컨텐츠의 시퀀스 정보를 생성하고, 제3 AI 모델을 이용하여 멀티미디어 컨텐츠의 시퀀스 정보로부터 멀티미디어 컨텐츠의 장면 정보를 생성할 수 있다. 또는, 디스플레이 장치(100)는 외부 장치로부터 멀티미디어 컨텐츠의 장면 정보를 수신하거나 사용자 입력에 기초하여 멀티미디어 컨텐츠의 장면 정보를 획득할 수도 있다. 다만, 이에 한정되지 않으며 다양한 방법으로 멀티미디어 컨텐츠의 장면 정보를 생성할 수 있다.

멀티미디어 컨텐츠의 장면 정보는 장면의 배경 정보, 장면에 등장하는 인물과 인물의 행동에 대한 정보, 등장 인물의 대화 내용 등을 포함할 수 있으며, 멀티미디어 컨텐츠의 스크립트 형식으로 나타날 수 있다.

디스플레이 장치(100)는 멀티미디어 컨텐츠의 장면 정보에 기초하여, 감정 정보를 획득할 수 있다(S1020).

도 11을 참조하면, 디스플레이 장치(100)는 장면 정보(60)에 대한 감정(sentiment) 분석을 수행하여, 장면에 대한 감정(emotion) 정보(1110)를 획득할 수 있다. 감정 분석은 하나 이상의 뉴럴 네트워크들을 포함하는 모델을 이용하여, 수행될 수 있다. 이때, 하나 이상의 뉴럴 네트워크들은 장면 정보를 입력 받아 장면에 대응하는 감정 정보를 출력하도록 학습된 모델일 수 있다. 디스플레이 장치(100)는 감정 분석을 수행함으로써, 장면 정보에 의해 표현되는 감정(예를 들어, “행복함”, “기쁨”, “화남”, “슬픔” 등의 감정)을 획득할 수 있다.

일 실시예에 따른 디스플레이 장치(100)는 감정 정보 및 멀티미디어 컨텐츠의 장르 정보에 기초하여, 배경 음악을 생성할 수 있다(S1030).

배경 음악은 오디오를 포함할 수 있으며, 오디오는 음악, 소리(예를 들어, 자연음, 인공음, 음성 등) 등을 포함할 수 있으나, 이에 한정되지 않는다.

도 11을 참조하면, 디스플레이 장치(100)는 제4 AI 모델(1100)을 이용하여, 장면에 대응하는 배경 음악을 생성할 수 있다. 제4 AI 모델(1100)은 감정 정보(1110)와 멀티미디어 컨텐츠의 장르 정보(1120)를 입력 받아, 장면에 대한 배경 음악(1130)을 출력하도록 학습된 모델일 수 있다.

또한, 제4 AI 모델(1100)은, 하나 이상의 뉴럴 네트워크들을 포함할 수 있으며, 제4 AI 모델(1100)로 입력된 데이터(예를 들어, 감정 정보와 멀티미디어 컨텐츠의 장르 정보)가 히든 레이어들을 통과하여, 출력 데이터(예를 들어, 배경 음악)가 생성될 수 있으며, 제4 AI 모델(1100)은, 2개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크를 포함할 수 있다.

또한, 제4 AI 모델(1100)은 조건부 생성적 대립 신경망(CGAN: Conditional Generative Adversarial Nets)을 포함할 수 있다. 조건부 생성적 대립 신경망은 생성 모델과 판별 모델이 경쟁하면서 조건(예를 들어, 감정 정보 및 멀티미디어 컨텐츠의 장르 정보)에 맞는 오디오(예를 들어, 배경 음악)를 자동으로 생성할 수 있다.

디스플레이 장치(100)는 제4 AI 모델에 의해 생성된 배경 음악을 생성된 멀티미디어 컨텐츠와 함께 출력할 수 있다(S1040).

도 12는 일 실시예에 따른 디스플레이 장치의 구성을 나타내는 블록도이다.

도 12를 참조하면, 일 실시예에 따른 디스플레이 장치(100)는 프로세서(120), 메모리(130) 및 디스플레이(140)를 포함할 수 있다.

일 실시예에 따른 프로세서(120)는 메모리(130)에 저장되는 하나 이상의 프로그램들을 실행할 수 있다. 프로세서(120)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다. 또한, 프로세서(120)는 복수의 프로세서를 포함할 수 있다. 예를 들어, 프로세서(120)는 메인 프로세서(main processor, 도시되지 아니함) 및 슬립 모드(sleep mode)에서 동작하는 서브 프로세서(sub processor, 도시되지 아니함)로 구현될 수 있다.

일 실시예에 따른 메모리(130)는 디스플레이 장치(100)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다.

또한, 메모리(130)에 저장되는 프로그램은 하나 이상의 인스트럭션들을 포함할 수 있다. 메모리(130)에 저장된 프로그램(하나 이상의 인스트럭션들) 또는 어플리케이션은 프로세서(120)에 의해 실행될 수 있다.

일 실시예에 따른 프로세서(120)는 메모리(130)에 저장되는 하나 이상의 인스트럭션들을 실행함으로써, 제1 AI 모델을 이용하여, 멀티미디어 컨텐츠의 플롯 정보를 획득할 수 있다. 예를 들어, 멀티미디어 컨텐츠의 장르 정보 및 멀티미디어 컨텐츠의 감정 정보가 제1 AI 모델에 입력되면, 제1 AI 모델은 멀티미디어 컨텐츠의 플롯 정보를 출력할 수 있다.

또한, 프로세서(120)는 제2 AI 모델을 이용하여, 멀티미디어 컨텐츠의 플롯 정보에 대응하는 멀티미디어 컨텐츠의 시퀀스 정보를 획득할 수 있으며, 제3 AI 모델을 이용하여, 멀티미디어 컨텐츠의 장면 정보를 획득할 수 있다.

또한, 프로세서(120)는 도 9의 등장 인물 선택부(910)와 애니메이션 생성부(920)를 포함할 수 있다. 예를 들어, 프로세서(120)는 등장 인물 정보에 기초하여, 멀티미디어 컨텐츠의 등장 인물을 선택하고, 선택된 등장 인물과 멀티미디어 컨텐츠의 장면 정보에 기초하여, 멀티미디어 컨텐츠를 생성하고, 생성된 멀티미디어 컨텐츠를 출력하도록 디스플레이(140)를 제어할 수 있다.

또한, 일 실시예에 따른 프로세서(120)는 멀티미디어 컨텐츠의 장면 정보에 기초하여, 감정 정보를 획득할 수 있다. 또한, 프로세서(120)는 제4 AI 모델을 이용하여, 감정 정보와 멀티미디어 컨텐츠의 장르 정보에 대응하는 배경 음악을 생성할 수 있다.

프로세서(120)는 생성된 멀티미디어 컨텐츠와 함께, 배경 음악을 출력하도록 제어할 수 있다.

일 실시예에 따른 디스플레이(140)는 프로세서(120)에서 처리된 영상 신호, 데이터 신호, OSD 신호, 제어 신호 등을 변환하여 구동 신호를 생성한다. 디스플레이(140)는 PDP, LCD, OLED, 플렉시블 디스플레이(flexible display)등으로 구현될 수 있으며, 또한, 3차원 디스플레이(3D display)로 구현될 수 있다. 또한, 디스플레이(140)는, 터치 스크린으로 구성되어 출력 장치 이외에 입력 장치로 사용되는 것도 가능하다.

일 실시예에 따른 디스플레이(140)는 생성된 멀티미디어 컨텐츠의 재생 화면을 표시할 수 있다.

도 13은 일 실시예에 따른 프로세서의 구성을 나타내는 블록도이다.

도 13을 참조하면, 일 실시예에 따른 프로세서(120)는 데이터 학습부(1310) 및 데이터 처리부(1320)를 포함할 수 있다.

도 13에는 데이터 학습부(1310) 및 데이터 처리부(1320)가 하나의 프로세서로 구성되는 것으로 도시하였으나, 데이터 학습부(1310) 및 데이터 처리부(1320)는 별개의 프로세서들로 구성될 수 있다.

데이터 학습부(1310)는 일 실시예에 따른 제1 AI 모델, 제2 AI 모델, 제3 AI 모델 및 제4 AI 모델 중 적어도 하나를 학습시킬 수 있다. 데이터 학습부(1310)는 멀티미디어 컨텐츠의 스토리 정보, 멀티미디어 컨텐츠의 감정 정보 및 멀티미디어 컨텐츠의 플롯 정보를 포함하는 학습 데이터를 이용하여, 제1 AI 모델을 학습시킬 수 있다. 예를 들어, 데이터 학습부(1310)는 멀티미디어 컨텐츠의 스토리 정보 및 멀티미디어 컨텐츠의 감정 정보가 제1 AI 모델에 입력되면, 멀티미디어 컨텐츠의 스토리 정보 및 멀티미디어 컨텐츠의 감정 정보에 대응하는 멀티미디어 컨텐츠의 플롯 정보가 출력되도록 제1 AI 모델을 학습시킬 수 있다.

또한, 데이터 학습부(1310)는 멀티미디어 컨텐츠의 플롯 정보 및 멀티미디어 컨텐츠의 시퀀스 정보를 포함하는 학습 데이터를 이용하여, 제2 AI 모델을 학습시킬 수 있다. 예를 들어, 데이터 학습부(1310)는 멀티미디어 컨텐츠의 플롯 정보가 제2 AI 모델에 입력되면, 멀티미디어 컨텐츠의 플롯 정보에 대응하는 멀티미디어 컨텐츠의 시퀀스 정보가 출력되도록 제2 AI 모델을 학습시킬 수 있다.

또한, 데이터 학습부(1310)는 멀티미디어 컨텐츠의 등장 인물 정보, 멀티미디어 컨텐츠의 시퀀스 정보 및 멀티미디어 컨텐츠의 장면 정보를 포함하는 학습 데이터를 이용하여, 제3 AI 모델을 학습시킬 수 있다. 예를 들어, 데이터 학습부(1310)는 멀티미디어 컨텐츠의 등장 인물 정보와 멀티미디어 컨텐츠의 시퀀스 정보가 제3 AI 모델에 입력되면, 멀티미디어 컨텐츠의 시퀀스 정보에 대응하는 멀티미디어 컨텐츠의 장면 정보가 출력되도록 제3 AI 모델을 학습시킬 수 있다.

또한, 데이터 학습부(1310)는 장면의 감정 정보, 멀티미디어 컨텐츠의 장르 정보 및 장면의 배경 음악을 포함하는 학습 데이터를 이용하여, 제4 AI 모델을 학습시킬 수 있다. 예를 들어, 데이터 학습부(1310)는 장면의 감정 정보와 멀티미디어 컨텐츠의 장르 정보가 제4 AI 모델이 입력되면, 장면의 배경 음악이 출력되도록 제4 AI 모델을 학습시킬 수 있다.

일 실시예에 따른 제1 내지 제4 AI 모델들은, 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 제1 내지 제4 AI 모델들은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 처리 모델로서 사용될 수 있으나, 이에 한정되지 않는다.

또한, 데이터 학습부(1310)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 제1 내지 제4 AI 모델들을 학습시킬 수 있다.

또한, 일 실시예에 따른 제1 내지 제4 AI 모델들이 학습되면, 데이터 학습부(1310)는 학습된 제1 내지 제4 AI 모델들을 저장할 수 있다. 이 경우, 데이터 학습부(1310)는 학습된 제1 내지 제4 AI 모델들을 디스플레이 장치의 메모리에 저장할 수 있다. 또는, 데이터 학습부(1310)는 학습된 제1 내지 제4 AI 모델들을 영상 표시 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.

데이터 처리부(1320)는 학습된 제1 AI 모델에 멀티미디어 컨텐츠의 스토리 정보 및 멀티미디어 컨텐츠의 감정 정보를 입력하고, 결과값으로 멀티미디어 컨텐츠의 플롯 정보를 출력할 수 있다. 출력된 결과 값은 제1 AI 모델을 업데이트하는데 이용될 수 있다.

데이터 처리부(1320)는 학습된 제2 AI 모델에 멀티미디어 컨텐츠의 플롯 정보를 입력하고, 결과값으로 멀티미디어 컨텐츠의 시퀀스 정보를 출력할 수 있다. 출력된 결과 값은 제2 AI 모델을 업데이트하는데 이용될 수 있다.

데이터 처리부(1320)는 학습된 제3 AI 모델에 멀티미디어 컨텐츠의 등장 인물 정보와 멀티미디어 컨텐츠의 시퀀스 정보를 입력하고, 결과값으로 멀티미디어 컨텐츠의 장면 정보를 출력할 수 있다. 출력된 결과 값은 제3 AI 모델을 업데이트하는데 이용될 수 있다.

데이터 처리부(1320)는 학습된 제4 AI 모델에 장면의 감정 정보와 멀티미디어 컨텐츠의 장르 정보를 입력하고, 결과값으로 장면의 배경 음악을 출력할 수 있다. 출력된 결과 값은 제4 AI 모델을 업데이트하는데 이용될 수 있다.

데이터 학습부(1310) 및 데이터 처리부(1320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 디스플레이 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 처리부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 디스플레이 장치에 탑재될 수도 있다.

이 경우, 데이터 학습부(1310) 및 데이터 처리부(1320)는 하나의 디스플레이 장치에 탑재될 수도 있으며, 또는 별개의 디스플레이 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 처리부(1320) 중 하나는 디스플레이 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1310) 및 데이터 처리부(1320)는 유선 또는 무선으로 통하여, 데이터 학습부(1310)가 구축한 모델 정보를 데이터 처리부(1320)로 제공할 수도 있고, 데이터 처리부(1320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1310)로 제공될 수도 있다.

한편, 데이터 학습부(1310) 및 데이터 처리부(1320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310) 및 데이터 처리부(1320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 14는 일 실시예에 따른 디스플레이 장치 및 서버가 서로 연동함으로써, 멀티미디어 컨텐츠를 생성하는 예시를 나타내는 도면이다.

도 14를 참조하면, 서버(2000)는 일 실시예에 따른 제1 내지 제4 AI 모델들 중 적어도 하나를 학습시킬 수 있다. 이 경우, 서버(2000)는 도 13에 도시된 데이터 학습부(1310)의 기능을 수행할 수 있다.

디스플레이 장치(100)는 서버(2000)에 의해 생성된 제1 내지 제4 AI모델들을 서버(2000)로부터 수신하고, 수신된 제1 내지 제4 AI 모델들을 이용하여, 멀티미디어 컨텐츠 또는 멀티미디어 컨텐츠의 배경 음악을 생성할 수 있다. 예를 들어, 디스플레이 장치(100)는 서버에 의해 학습된 제1 내지 제4 AI 모델들 중 적어도 하나에 기초하여, 멀티미디어 컨텐츠의 스토리 정보 및 멀티미디어 컨텐츠의 감정 정보에 기초하여, 멀티미디어 컨텐츠의 플롯 정보를 생성하고, 생성된 멀티미디어 컨텐츠의 플롯 정보에 기초하여, 멀티미디어 컨텐츠의 시퀀스 정보를 생성하며, 멀티미디어 컨텐츠의 시퀀스 정보에 기초하여, 멀티미디어 컨텐츠의 장면 정보를 생성할 수 있다. 또한, 디스플레이 장치(100)는 멀티미디어 컨텐츠의 장면 정보에 기초하여, 멀티미디어 컨텐츠를 생성하고, 멀티미디어 컨텐츠의 배경 음악을 생성할 수 있다.

또한, 디스플레이 장치(100)는 데이터를 서버(2000)에게 전송하고, 서버(2000)가 데이터를 제1 내지 제4 AI 모델들에 적용하여 처리할 것을 요청할 수 있다. 예를 들어, 서버(2000)는 제1 내지 제4 AI 모델들)을 이용하여, 멀티미디어 컨텐츠 또는 멀티미디어 컨텐츠의 배경 음악을 생성할 수 있다. 예를 들어, 디스플레이 장치(100)는 서버(2000)로 멀티미디어 컨텐츠의 스토리 정보 및 멀티미디어 컨텐츠의 감정 정보를 전송하면, 서버(2000)는 수신한 멀티미디어 컨텐츠의 스토리 정보 및 멀티미디어 컨텐츠의 감정 정보에 기초하여, 멀티미디어 컨텐츠의 플롯 정보를 생성하고, 생성된 멀티미디어 컨텐츠의 플롯 정보에 기초하여, 멀티미디어 컨텐츠의 시퀀스 정보를 생성하며, 멀티미디어 컨텐츠의 시퀀스 정보에 기초하여, 멀티미디어 컨텐츠의 장면 정보를 생성할 수 있다. 또한, 서버(2000)는 멀티미디어 컨텐츠의 장면 정보에 기초하여, 멀티미디어 컨텐츠를 생성하고, 멀티미디어 컨텐츠의 배경 음악을 생성할 수 있다.

서버(2000)는 생성된 멀티미디어 컨텐츠 및 배경 음악을 디스플레이 장치(100)로 전송할 수 있으며, 디스플레이 장치(100)는 수신한 멀티미디어 컨텐츠 및 배경 음악을 출력할 수 있다.

도 15는 다른 실시예에 따른 디스플레이 장치의 구성을 나타내는 블록도이다. 도 15의 디스플레이 장치(1500)는 도 12의 디스플레이 장치(100)의 일 실시예일 수 있다.

도 15를 참조하면, 일 실시예에 따른 디스플레이 장치(1500)는, 튜너부(1540), 프로세서(1510), 디스플레이부(1520), 통신부(1550), 감지부(1530), 입/출력부(1570), 비디오 처리부(1580), 오디오 처리부(1585), 메모리(1590), 전원부(1595)를 포함할 수 있다.

튜너부(1540)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 디스플레이 장치(1500)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 오디오(audio), 비디오(video) 및 부가 정보(예를 들어, EPG(Electronic Program Guide))를 포함한다.

튜너부(1540)는 사용자 입력(예를 들어, 제어 장치로부터 수신되는 제어 신호, 예컨대, 채널 번호 입력, 채널의 업/다운(up/down) 입력 및 EPG 화면에서 채널 입력)에 따라 채널 번호에 대응되는 주파수 대역에서 방송 신호를 수신할 수 있다.

튜너부(1540)는 지상파 방송, 케이블 방송, 위성 방송, 인터넷 방송 등과 같이 다양한 소스로부터 방송 신호를 수신할 수 있다. 튜너부(1540)는 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수도 있다.

통신부(1550)는 제어부(1510)의 제어에 의해 외부 장치 또는 서버와 데이터 또는 신호를 송수신할 수 있다. 제어부(1510)는 통신부(1550)를 통해 연결된 외부 장치로 컨텐츠를 송/수신, 외부 장치로부터 어플리케이션(application)을 다운로드 하거나 또는 웹 브라우징을 할 수 있다. 통신부(1550)는 디스플레이 장치(1500)의 성능 및 구조에 대응하여 무선랜(1551, 예를 들어, 와이- 파이(Wi-Fi)), 블루투스(1552), 및 유선 이더넷(Ethernet)(1553) 중 적어도 하나의 방식으로 데이터 또는 신호를 송수신할 수 있다.

비디오 처리부(1580)는, 디스플레이 장치(1500)가 수신한 비디오 데이터에 대한 처리를 수행한다. 비디오 처리부(1580)에서는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.

감지부(1530)는 사용자의 음성, 사용자의 영상 또는 사용자의 인터랙션을 감지하며, 마이크(1531), 카메라부(1532) 및 광 수신부(1533)를 포함할 수 있다.

마이크(1531)는 사용자의 발화(utterance)된 음성을 수신한다. 마이크(1531)는 수신된 음성을 전기 신호로 변환하여 제어부(1510)로 출력할 수 있다. 사용자 음성은 예를 들어, 디스플레이 장치(1500)의 메뉴 또는 기능에 대응되는 음성을 포함할 수 있다.

카메라부(1532)는 카메라 인식 범위에서 제스처를 포함하는 사용자의 모션에 대응되는 영상(예를 들어, 연속되는 프레임)을 수신할 수 있다. 제어부(1510)는 수신된 모션의 인식 결과를 이용하여 디스플레이 장치(1500)에 표시되는 메뉴를 선택하거나 모션 인식 결과에 대응되는 제어를 할 수 있다.

광 수신부(1533)는 외부의 제어 장치에서부터 수신되는 광 신호(제어 신호를 포함)를 디스플레이부(1520)의 베젤의 광창(도시되지 아니함) 등을 통해 수신한다. 광 수신부(1533)는 제어 장치로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 제어부(1510)의 제어에 의해 제어 신호가 추출될 수 있다.

입/출력부(1570)는 제어부(1510)의 제어에 의해 디스플레이 장치(1500)의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신한다. 입/출력부(1570)는 HDMI 포트(High-Definition Multimedia Interface port, 1771), 컴포넌트 잭(component jack, 1572), PC 포트(PC port, 1573), 및 USB 포트(USB port, 1574) 중 하나를 포함할 수 있다. 입/출력부(1570)는 HDMI 포트(1571), 컴포넌트 잭(1572), PC 포트(1573), 및 USB 포트(1574)의 조합을 포함할 수 있다.

프로세서(1510)는 디스플레이 장치(1500)의 전반적인 동작 및 디스플레이 장치(1500)의 내부 구성 요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다. 프로세서 (1510)는 사용자의 입력이 있거나 기 설정되어 저장된 조건을 만족하는 경우, 저장부(1590)에 저장된 OS(Operation System) 및 다양한 애플리케이션을 실행할 수 있다.

프로세서 (1510)는 디스플레이 장치(1500)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 디스플레이 장치(1500)에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 램(RAM), 디스플레이 장치(1500)의 제어를 위한 제어 프로그램이 저장된 롬(ROM)을 포함할 수 있다.

그래픽 처리부(미도시)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 감지부(1530)를 통해 감지된 사용자 입력을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부에서 생성된 화면은 디스플레이부(1520)의 디스플레이 영역 내에 표시된다.

디스플레이부(1520)는, 프로세서(1510)에서 처리된 영상 신호, 데이터 신호, OSD 신호, 제어 신호 등을 변환하여 구동 신호를 생성한다. 디스플레이부(1520)는 PDP, LCD, OLED, 플렉시블 디스플레이(flexible display)등으로 구현될 수 있으며, 또한, 3차원 디스플레이(3D display)로 구현될 수 있다. 또한, 디스플레이부(1520)는, 터치 스크린으로 구성되어 출력 장치 이외에 입력 장치로 사용되는 것도 가능하다.

오디오 처리부(1585)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(1585)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 한편, 오디오 처리부(1585)는 복수의 컨텐츠에 대응되는 오디오를 처리하기 위해 복수의 오디오 처리 모듈을 구비할 수 있다.

오디오 출력부(1560)는 프로세서(1510)의 제어에 의해 튜너부(1540)를 통해 수신된 방송 신호에 포함된 오디오를 출력한다. 오디오 출력부(1560)는 통신부(1550) 또는 입/출력부(1570)를 통해 입력되는 오디오(예를 들어, 음성, 사운드)를 출력할 수 있다. 또한, 오디오 출력부(1560)는 프로세서(1510)의 제어에 의해 메모리(1590)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(1560)는 스피커(1561), 헤드폰 출력 단자(1562) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자(1563) 중 적어도 하나를 포함할 수 있다. 오디오 출력부(1560)는 스피커(1561), 헤드폰 출력 단자(1562) 및 S/PDIF 출력 단자(1563)의 조합을 포함할 수 있다.

전원부(1595)는 프로세서(1510)의 제어에 의해 디스플레이 장치(1500) 내부의 구성 요소들로 외부의 전원 소스에서부터 입력되는 전원을 공급한다. 또한, 전원부(1595)는 프로세서(1510)의 제어에 의해 디스플레이 장치(1500) 내부에 위치하는 하나 또는 둘 이상의 배터리(도시되지 아니함)에서부터 출력되는 전원을 내부의 구성 요소들에게 공급할 수 있다.

메모리(1590)는 프로세서(1510)의 제어에 의해 디스플레이 장치(1500)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 메모리(1590)는 도시되지 아니한 방송 수신 모듈, 채널 제어 모듈, 볼륨 제어 모듈, 통신 제어 모듈, 음성 인식 모듈, 모션 인식 모듈, 광 수신 모듈, 디스플레이 제어 모듈, 오디오 제어 모듈, 외부 입력 제어 모듈, 전원 제어 모듈, 무선(예를 들어, 블루투스)으로 연결되는 외부 장치의 전원 제어 모듈, 음성 데이터베이스(DB), 또는 모션 데이터베이스(DB)를 포함할 수 있다. 메모리(1590)의 도시되지 아니한 모듈들 및 데이터 베이스는 디스플레이 장치(1500)에서 방송 수신의 제어 기능, 채널 제어 기능, 볼륨 제어 기능, 통신 제어 기능, 음성 인식 기능, 모션 인식 기능, 광 수신 제어 기능, 디스플레이 제어 기능, 오디오 제어 기능, 외부 입력 제어 기능, 전원 제어 기능 또는 무선(예를 들어, 블루투스)으로 연결되는 외부 장치의 전원 제어 기능을 수행하기 위하여 소프트웨어 형태로 구현될 수 있다. 프로세서(1510)는 메모리(1590)에 저장된 이들 소프트웨어를 이용하여 각각의 기능을 수행할 수 있다.

한편, 도 12 및 도 15에 도시된 디스플레이 장치(100, 1500)의 블록도는 일 실시예를 위한 블록도이다. 블록도의 각 구성요소는 실제 구현되는 디스플레이 장치(100, 1500)의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.

일 실시예에 따른 디스플레이 장치의 동작방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

또한, 개시된 실시예들에 따른 디스플레이 장치 또는 디스플레이 장치의 동작방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.

컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 전자 장치의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.

컴퓨터 프로그램 제품은, 서버 및 클라이언트 장치로 구성되는 시스템에서, 서버의 저장매체 또는 클라이언트 장치의 저장매체를 포함할 수 있다. 또는, 서버 또는 클라이언트 장치와 통신 연결되는 제3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 클라이언트 장치 또는 제3 장치로 전송되거나, 제3 장치로부터 클라이언트 장치로 전송되는 S/W 프로그램 자체를 포함할 수 있다.

이 경우, 서버, 클라이언트 장치 및 제3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 클라이언트 장치 및 제3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.

예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 클라이언트 장치가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.

이상에서 실시예들에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.

Claims

멀티미디어 컨텐츠를 생성하는 디스플레이 장치에 있어서,
디스플레이;
하나 이상의 인스트럭션들을 저장하는 메모리; 및
상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고,
상기 프로세서는,
상기 멀티미디어 컨텐츠의 플롯(plot) 정보를 획득하고, 제1 AI 모델을 이용하여, 상기 플롯 정보에 대응하는 상기 멀티미디어 컨텐츠의 하나 이상의 시퀀스들에 대한 시퀀스 정보를 생성하며,
제2 AI 모델을 이용하여, 상기 시퀀스 정보에 대응하는 상기 하나 이상의 시퀀스들 각각에 대응하는 장면 정보를 생성하고,
상기 장면 정보에 기초하여, 상기 멀티미디어 컨텐츠를 생성하며,
상기 멀티미디어 컨텐츠를 출력하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
제1항에 있어서,
상기 프로세서는,
상기 멀티미디어 컨텐츠의 장르 정보 및 감정 정보를 획득하고, 제3 AI 모델을 이용하여, 상기 멀티미디어 컨텐츠의 장르 정보 및 감정 정보에 대응하는 상기 멀티미디어 컨텐츠의 플롯 정보를 생성하는, 디스플레이 장치.
제2항에 있어서,
상기 멀티미디어 컨텐츠의 감정 정보는, 상기 멀티미디어 컨텐츠의 재생 시간에 따른 긍정도(valence) 정보와 상기 멀티미디어 컨텐츠의 재생 시간에 따른 각성도(arousal) 정보를 포함하는, 디스플레이 장치.
제2항에 있어서,
상기 프로세서는,
스토리 데이터 베이스로부터, 상기 멀티미디어 컨텐츠의 스토리 정보를 랜덤하게 획득하고,
상기 제3 AI 모델은, 상기 획득한 스토리 정보, 장르 정보 및 감정 정보가 입력되면, 상기 플롯 정보를 출력하도록 학습된 모델인, 디스플레이 장치.
제1항에 있어서,
상기 제1 AI 모델은 상기 플롯 정보가 입력되면, 상기 시퀀스 정보를 출력하도록 학습된 모델인, 디스플레이 장치.
제1항에 있어서,
상기 제2 AI 모델은 상기 멀티미디어 컨텐츠의 등장 인물(character) 정보와 상기 시퀀스 정보가 입력되면, 상기 장면 정보를 출력하도록 학습된 모델인, 디스플레이 장치.
제6항에 있어서,
상기 프로세서는,
상기 플롯 정보로부터 상기 멀티미디어 컨텐츠의 등장 인물 정보를 획득하는, 디스플레이 장치.
제1항에 있어서,
상기 장면 정보는,
장면의 배경 정보, 장면에 등장하는 인물에 대한 정보, 등장 인물의 행동에 대한 정보, 및 등장 인물의 대화 내용 중 적어도 하나를 포함하는, 디스플레이 장치.
제8항에 있어서,
상기 프로세서는,
상기 멀티미디어 컨텐츠의 등장 인물 정보에 기초하여, 등장 인물 데이터 베이스로부터 등장 인물을 선택하고,
선택된 등장 인물과 상기 장면 정보에 기초하여, 상기 멀티미디어 컨텐츠를 생성하는, 디스플레이 장치.
제1항에 있어서,
상기 디스플레이 장치는,
오디오 출력부를 더 포함하고,
상기 프로세서는
상기 장면 정보에 기초하여, 상기 장면에 대한 감정 정보를 획득하고, 상기 감정 정보와 상기 멀티미디어 컨텐츠의 장르 정보에 기초하여, 상기 장면에 대한 배경 음악을 생성하며,
상기 배경 음악을 출력하도록 상기 오디오 출력부를 제어하는 디스플레이 장치.
제10항에 있어서,
상기 프로세서는
제4 AI 모델을 이용하여, 상기 감정 정보와 상기 멀티미디어 컨텐츠의 장르 정보에 대응하는, 상기 배경 음악을 생성하고,
상기 제4 AI 모델은, 상기 감정 정보 및 상기 멀티미디어 컨텐츠의 장르 정보가 입력되면, 상기 배경 음악을 생성하도록 학습된 모델인, 디스플레이 장치.
멀티미디어 컨텐츠를 생성하는 디스플레이 장치의 동작방법에 있어서,
상기 멀티미디어 컨텐츠의 플롯 정보를 획득하는 단계;
제1 AI 모델을 이용하여, 상기 플롯 정보에 대응하는 상기 멀티미디어 컨텐츠의 하나 이상의 시퀀스들에 대한 시퀀스 정보를 생성하는 단계;
제2 AI 모델을 이용하여, 상기 시퀀스 정보에 대응하는 상기 하나 이상의 시퀀스들 각각에 대응하는 장면 정보를 생성하는 단계;
상기 장면 정보에 기초하여, 상기 멀티미디어 컨텐츠를 생성하는 단계; 및
상기 멀티미디어 컨텐츠를 출력하는 단계를 포함하는, 디스플레이 장치의 동작방법.
제12항에 있어서,
상기 멀티미디어 컨텐츠의 플롯 정보를 획득하는 단계는,
상기 멀티미디어 컨텐츠의 장르 정보 및 감정 정보를 획득하는 단계; 및
제3 AI 모델을 이용하여, 상기 멀티미디어 컨텐츠의 장르 정보 및 감정 정보에 대응하는 상기 멀티미디어 컨텐츠의 플롯 정보를 생성하는 단계를 포함하는, 디스플레이 장치의 동작방법.
제13항에 있어서,
상기 멀티미디어 컨텐츠의 감정 정보는, 상기 멀티미디어 컨텐츠의 재생 시간에 따른 긍정도(valence) 정보와 상기 멀티미디어 컨텐츠의 재생 시간에 따른 각성도(arousal) 정보를 포함하는, 디스플레이 장치의 동작방법.
제13항에 있어서,
상기 플롯 정보를 획득하는 단계는,
스토리 데이터 베이스로부터, 상기 멀티미디어 컨텐츠의 스토리 정보를 랜덤하게 획득하는 단계를 더 포함하고,
상기 제3 AI 모델은, 상기 획득한 스토리 정보, 장르 정보 및 감정 정보가 입력되면, 상기 플롯 정보를 출력하도록 학습된 모델인, 디스플레이 장치의 동작방법.
제12항에 있어서,
상기 제1 AI 모델은 상기 플롯 정보가 입력되면, 상기 시퀀스 정보를 출력하도록 학습된 모델인, 디스플레이 장치의 동작방법.
제12항에 있어서,
상기 제2 AI 모델은 상기 멀티미디어 컨텐츠의 등장 인물(character) 정보와 상기 시퀀스 정보가 입력되면, 상기 장면 정보를 출력하도록 학습된 모델인, 디스플레이 장치의 동작방법.
제17항에 있어서,
상기 동작방법은,
상기 플롯 정보로부터 상기 멀티미디어 컨텐츠의 등장 인물 정보를 획득하는 단계를 더 포함하는, 디스플레이 장치의 동작방법.
제12항에 있어서,
상기 장면 정보는,
장면의 배경 정보, 장면에 등장하는 인물에 대한 정보, 등장 인물의 행동에 대한 정보, 및 등장 인물의 대화 내용 중 적어도 하나를 포함하는, 디스플레이 장치의 동작방법.
제19항에 있어서,
상기 멀티미디어 컨텐츠를 생성하는 단계는,
상기 멀티미디어 컨텐츠의 등장 인물 정보에 기초하여, 등장 인물 데이터 베이스로부터 등장 인물을 선택하는 단계;
선택된 등장 인물과 상기 장면 정보에 기초하여, 상기 멀티미디어 컨텐츠를 생성하는 단계를 포함하는, 디스플레이 장치의 동작방법.
제12항에 있어서,
상기 동작방법은,
상기 장면 정보에 기초하여, 상기 장면에 대한 감정 정보를 획득하는 단계;
상기 감정 정보와 상기 멀티미디어 컨텐츠의 장르 정보에 기초하여, 상기 장면에 대한 배경 음악을 생성하는 단계; 및
상기 배경 음악을 출력하는 단계를 더 포함하는 디스플레이 장치의 동작방법.
제21항에 있어서,
상기 배경 음악을 생성하는 단계는,
제4 AI 모델을 이용하여, 상기 감정 정보와 상기 멀티미디어 컨텐츠의 장르 정보에 대응하는, 상기 배경 음악을 생성하는 단계를 포함하고,
상기 제4 AI 모델은, 상기 감정 정보 및 상기 멀티미디어 컨텐츠의 장르 정보가 입력되면, 상기 배경 음악을 생성하도록 학습된 모델인, 디스플레이 장치의 동작방법.
제12항의 방법을 수행하도록 하는 프로그램이 저장된 하나 이상의 컴퓨터로 읽을 수 있는 기록매체.