KR102632973B1

KR102632973B1 - 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 전자 장치 및 이의 동작 방법

Info

Publication number: KR102632973B1
Application number: KR1020230170904A
Authority: KR
Inventors: 이수민
Original assignee: 이수민
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-02-01

Abstract

본 개시는 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 전자 장치 및 이의 동작 방법에 관한 것이다. 일 실시 예에 따른 전자 장치가 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 방법은 외부 디바이스로부터 복수의 문단들을 포함하는 프롬프트를 획득하는 단계; 상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들을 상기 문맥의 순서에 따라 출력하는 단계; 상기 출력된 문맥의 순서에 따라 상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력에 기초하여, 상기 영상 리소스들을 합성함으로써 생성된 렌더링 영상과, 상기 렌더링 영상의 생성에 사용된 영상 리소스들의 썸네일 이미지들 중, 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성함으로써 생성된, 멀티미디어 컨텐츠를 획득하는 단계; 및 상기 대표 썸네일 이미지를 디스플레이 상에 출력함과 함께, 상기 대표 썸네일 이미지를 대신하여 변경 가능한 적어도 하나의 후보 썸네일 이미지들을 출력하는 단계; 를 포함할 수 있다.

Description

멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 전자 장치 및 이의 동작 방법{ELECTRONIC DEVICE FOR PROVDING USER INTERFACE FOR MULTIMEDIA CONTENT CREATION AND OPERATING METHOD THEREFOR}

본 개시는 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 전자 장치 및 이의 동작 방법에 관한 것이다. 보다 상세하게는, 사용자 입력에 기초하여 영상 리소스 매칭을 통해 생성된 렌더링 영상에 대표 썸네일 이미지를 합성함으로써, 멀티미디어 컨텐츠를 생성하기 위한 사용자 인터페이스를 제공하는 전자 장치 및 이의 동작 방법에 관한 것이다.

기존의 멀티미디어 컨텐츠 생성 및 편집은 주로 전문가나 숙련된 사용자들을 대상으로 제한되고 있으며, 이들은 복잡한 소프트웨어 도구를 사용하여 영상을 생성하고 편집하며, 이에 필요한 높은 기술적 능력과 시간이 필요하다.

그러나 최근, 인공지능과 딥러닝 기술의 발전은 영상 생성 분야에서 혁신을 가져오고 있다. 특히, 생성적 적대 신경망(GAN)과 같은 신경망 구조는 고품질의 이미지 및 영상을 생성하는 데 사용되고 있으나, 이러한 기술을 활용하려면 여전히 사용자는 복잡한 학습 프로세스와 다양한 매개 변수 설정에 익숙해져야 합니다.

이러한 문제를 해결하기 위해, 사용자 친화적이며 자동화된 방식으로 멀티미디어 컨텐츠 생성하고, 멀티미디어 컨텐츠에 관한 썸네일을 추천하며, 간편하고 직관적으로 멀티미디어 컨텐츠의 편집을 가능하게 하는 인터페이스에 대한 기술 개발이 요구되고 있다.

일 실시 예에 의하면, 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 전자 장치 및 이의 동작 방법이 제공될 수 있다. 보다 상세하게는, 사용자 입력에 기초하여 영상 리소스 매칭을 통해 생성된 렌더링 영상에 대표 썸네일 이미지를 합성함으로써, 멀티미디어 컨텐츠를 생성하기 위한 사용자 인터페이스를 제공하는 전자 장치 및 이의 동작 방법이 제공될 수 있다.

상술한 기술적 과제를 달성하기 위한 본 개시의 일 실시 예에 따라, 전자 장치가 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 방법에 있어서, 외부 디바이스로부터 복수의 문단들을 포함하는 프롬프트를 획득하는 단계; 상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들을 상기 문맥의 순서에 따라 출력하는 단계; 상기 출력된 문맥의 순서에 따라 상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력에 기초하여, 상기 영상 리소스들을 합성함으로써 생성된 렌더링 영상과, 상기 렌더링 영상의 생성에 사용된 영상 리소스들의 썸네일 이미지들 중, 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성함으로써 생성된, 멀티미디어 컨텐츠를 획득하는 단계; 및 상기 대표 썸네일 이미지를 디스플레이 상에 출력함과 함께, 상기 대표 썸네일 이미지를 대신하여 변경 가능한 적어도 하나의 후보 썸네일 이미지들을 출력하는 단계; 를 포함하는, 방법이 제공될 수 있다.

상기 기술적 과제를 해결하기 위한 본 개시의 또 다른 실시 예에 따르면, 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 전자 장치에 있어서, 디스플레이; 네트워크 인터페이스; 하나 이상의 인스트럭션을 저장하는 메모리; 상기 하나 이상의 인스트럭션을 수행하는 적어도 하나의 프로세서; 를 포함하고, 상기 적어도 하나의 프로세서는 외부 디바이스로부터 복수의 문단들을 포함하는 프롬프트를 획득하고, 상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들을 상기 문맥의 순서에 따라 출력하고, 상기 출력된 문맥의 순서에 따라 상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력에 기초하여, 상기 영상 리소스들을 합성함으로써 생성된 렌더링 영상과, 상기 렌더링 영상의 생성에 사용된 영상 리소스들의 썸네일 이미지들 중, 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성함으로써 생성된, 멀티미디어 컨텐츠를 획득하고, 상기 대표 썸네일 이미지를 디스플레이 상에 출력함과 함께, 상기 대표 썸네일 이미지를 대신하여 변경 가능한 적어도 하나의 후보 썸네일 이미지들을 출력하는, 전자 장치가 제공될 수 있다.

상기 기술적 과제를 해결하기 위한 본 개시의 또 다른 실시 예에 따르면, 전자 장치가 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 방법에 있어서, 외부 디바이스로부터 복수의 문단들을 포함하는 프롬프트를 획득하는 단계; 상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들을 상기 문맥의 순서에 따라 출력하는 단계; 상기 출력된 문맥의 순서에 따라 상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력에 기초하여, 상기 영상 리소스들을 합성함으로써 생성된 렌더링 영상과, 상기 렌더링 영상의 생성에 사용된 영상 리소스들의 썸네일 이미지들 중, 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성함으로써 생성된, 멀티미디어 컨텐츠를 획득하는 단계; 및 상기 대표 썸네일 이미지를 디스플레이 상에 출력함과 함께, 상기 대표 썸네일 이미지를 대신하여 변경 가능한 적어도 하나의 후보 썸네일 이미지들을 출력하는 단계; 를 포함하는, 방법을 수행하도록 하는 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.

일 실시 예에 의하면, 렌더링 영상에 사용된 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 렌더링 영상에 합성함으로써, 사용자에게 별도의 썸네일 편집 작업 없이 간편하게 멀티미디어 컨텐츠를 제공할 수 있다.

일 실시 예에 의하면, 대표 썸네일 이미지를 디스플레이 상에 출력함과 함께, 변경 가능한 후보 썸네일 이미지를 출력함으로써, 사용자가 원하는 썸네일 이미지를 제공할 수 있다.

일 실시 예에 의하면, 프롬프트의 문맥이 유사한 영상 리소스들 사이의 순서 변경 인터페이스를 출력함으로써, 사용자는 직관적으로 영상의 유사 여부를 판단할 수 있으며, 간편한 조작 만으로도 영상의 순서를 편집할 수 있다.

도 1은 일 실시 예에 따른 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 과정을 개략적으로 나타내는 도면이다.
도 2는 일 실시 예에 따른 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 방법의 흐름도이다.
도 3은 일 실시 예에 따른 전자 장치가 출력한 순서 변경 인터페이스에 대한 사용자 입력을 획득하는 과정을 구체적으로 설명하기 위한 흐름도이다.
도 4는 일 실시 예에 따른 서버가 대표 썸네일 이미지를 결정하는 과정을 설명하기 위한 흐름도이다.
도 5는 일 실시 예에 따른 전자 장치가 순서 변경 인터페이스를 출력하는 과정을 설명하기 위한 흐름도이다.
도 6은 일 실시 예에 따른 전자 장치가 순서 변경 인터페이스에 대한 사용자 입력을 서버로 전송하는 과정을 설명하기 위한 흐름도이다.
도 7은 일 실시 예에 따른 순서 변경 인터페이스의 출력 화면을 나타내는 도면이다.
도 8은 일 실시 예에 따른 전자 장치의 블록도이다.
도 9는 또 다른 실시 예에 따른 전자 장치의 블록도이다.
도 10은 일 실시 예에 따른 서버의 블록도이다.
도 11은 일 실시 예에 따른 전자 장치 및 서버가 서로 연동함으로써 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 과정을 설명하기 위한 도면이다.

이하, 본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.

본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은 일 실시 예에 따른 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 과정을 개략적으로 나타내는 도면이다.

일 실시 예에 의하면, 일 실시 예에 의하면, 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스 제공 시스템(10)은 사용자 입력에 기초하여 프롬프트를 획득하고, 획득된 프롬프트에 인공지능 모델을 적용함으로써 멀티미디어 컨텐츠를 생성 및 합성할 수 있다. 일 실시 예에 의하면, 프롬프트는 하나 이상의 문장들을 포함하는 문단들, 상기 문단들을 포함하는 텍스트를 포함할 수 있다.

일 실시 예에 의하면, 사용자 인터페이스 제공 시스템 (10)은 외부 디바이스 또는 사용자 입력으로부터 복수의 문단들을 포함하는 프롬프트를 획득하고, 상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들을 상기 문맥의 순서에 따라 출력함으로써, 사용자로부터 상기 영상 리소스들의 합성 요청에 관한 사용자 입력을 획득할 수 있다.

일 실시 예에 의하면, 사용자 인터페이스 제공 시스템(10)은 상기 영상 리소스들의 합성 요청에 관한 사용자 입력에 기초하여, 상기 영상 리소스들을 합성한 렌더링 영상을 생성하고, 상기 생성된 렌더링 영상에 대한 하나의 대표 썸네일 이미지를 상기 렌더링 영상에 합성함으로써, 멀티미디어 컨텐츠를 생성할 수 있다.

일 실시 예에 의하면, 사용자 인터페이스 제공 시스템(10)은 전자 장치(1000) 및 서버(2000)를 포함할 수 있다. 그러나, 상술한 예에 한정되는 것은 아니고, 또 다른 실시 예에 의하면, 사용자 인터페이스 제공 시스템(10)은 네트워크(3000)를 통해 연결되는 전자 장치(4000)를 더 포함할 수도 있다. 도 1에 도시된 전자 장치(1000)와 전자장치(4000)는 사용자 인터페이스 제공 시스템(10)이 제공하는 사용자 인터페이스 서비스를 이용하는 서로 다른 사용자들이 이용하는 단말 내지 컴퓨터 장치일 수 있다.

일 실시 예에 의하면, 전자 장치(1000)는 외부로부터 프롬프트(110)를 획득하고, 획득된 프롬프트(110)에 대한 문맥 유사도를 식별(130)하고, 사용자 입력(120)에 기초하여 서버로부터 획득된 멀티미디어 컨텐츠(180) 및 후보 썸네일 이미지를 출력(140)함으로써, 사용자에게 멀티미디어 컨텐츠 생성에 관한 인터페이스를 제공할 수 있다.

일 실시 예에 의하면, 서버(2000)는 전자 장치(1000)로부터 획득된 프롬프트(110)에 기초하여, 상기 프롬프트에 포함된 문단 별 영상 리소스를 매칭(150)할 수 있다. 일 실시 예에 의하면, 서버(2000)는 상기 매칭된 영상 리소스들을 합성함으로써 렌더링 영상을 생성(160)하고, 상기 생성된 렌더링 영상에 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성(170)함으로써, 멀티미디어 컨텐츠를 생성할 수 있다. 상술한 동작들은 서버(2000)에 의해 수행될 수도 있고, 전자 장치(1000)에 의해 수행될 수도 있음은 물론이다.

도 2는 일 실시 예에 따른 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 방법의 흐름도이다.

S210에서, 전자 장치(1000)는 외부 디바이스로부터 복수의 문단들을 포함하는 프롬프트를 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 사용자 입력 또는 상기 전자 장치와 연결된 외부 디바이스로부터 상기 텍스트를 획득할 수 있으며, 획득되는 신호가 음성 신호일 경우, 획득된 음성 신호를 텍스트로 변환하여 획득할 수도 있다.

S220에서, 전자 장치(1000)는 상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들을 상기 문맥의 순서에 따라 출력할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 획득된 사용자의 요청 또는 상기 프롬프트의 길이에 기초하여, 상기 프롬프트를 요약하고, 요약된 프롬프트에 대한 형태소 분석을 수행함으로써 결정되는 문단 별 형태소 키워드들에 기초하여 각 문단 별 문맥을 식별할 수 있다. 또한, 일 실시 예에 의하면, 전자 장치(1000)는 식별된 각 문단 별 문맥에 따라 매칭되는 영상 리소스들을 서버(2000)로부터 획득할 수 있으며, 획득된 영상 리소스들을 상기 문맥의 순서에 따라 출력할 수 있다.

일 실시 예에 의하면, 전자 장치(1000)는 문단 별 키워드 빈도수와, 각 빈도수에 대해 누적 측정되는 사용자의 피드백, 문단 별로 결정되는 키워드의 빈도수 및 상기 키워드의 연결 관계에 관한 정보를 포함하는 키워드 네트워크 중 적어도 하나에 기초하여 문단 별 핵심 키워드를 결정하고, 결정된 문단 별 핵심 키워드에 기초하여, 각 문단 별 문맥을 식별할 수 있다.

또 다른 실시 예에 의하면, 전자 장치(1000)는 핵심 키워드와 의존 관계에 있는 형태소 키워드들을 식별하고, 상기 핵심 키워드와 상기 식별된 형태소 키워드들 사이의 복수의 계층 구조를 포함하는 구문 트리를 생성하고, 상기 생성된 구문 트리에 기초하여, 상기 핵심 키워드와 인접한 계층에 있는 형태소 키워드들 중, 상기 문단 내 사용 횟수에 따라 결정되는 우선순위에 기초하여, 적어도 하나의 서브 키워드를 결정하고, 상기 핵심 키워드 및 상기 서브 키워드에 기초하여 각 문단 별 문맥을 식별할 수도 있다.

예를 들어, 서버(2000)는 상기 핵심 키워드와 의존 관계에 있는 형태소 키워드들이 미리 결정된 개수 이상으로 식별되는 경우, 상기 형태소 키워드들 중 일부를 서브 키워드로 결정하기 위한 구문 트리를 생성할 수 있다. 또한, 예를 들어, 서버(2000)는 생성된 구문 트리에서 상기 핵심 키워드와 상기 형태소 키워드들 사이의 계층이 가장 인접한 형태소 키워드들 중 문단 내 사용 횟수가 많은 순서대로 서브 키워드를 결정할 수 있다.

S230에서, 전자 장치(1000)는 상기 출력된 문맥의 순서에 따라 상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력에 기초하여, 상기 영상 리소스들을 합성함으로써 생성된 렌더링 영상과, 상기 렌더링 영상의 생성에 사용된 영상 리소스들의 썸네일 이미지들 중, 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성함으로써 생성된 멀티미디어 컨텐츠를 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력이 획득되면, 서버로 상기 획득된 제1 사용자 입력을 상기 전자 장치와 연결된 서버로 전송할 수 있다. 또한, 전자 장치(1000)는 상기 서버(2000)로부터 상기 영상 리소스들이 합성된 렌더링 영상에 상기 대표 썸네일 이미지가 합성된 멀티미디어 컨텐츠를 획득할 수 있다.

S240에서, 전자 장치(1000)는 상기 대표 썸네일 이미지를 디스플레이 상에 출력함과 함께, 상기 대표 썸네일 이미지를 대신하여 변경 가능한 적어도 하나의 후보 썸네일 이미지들을 출력할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 상기 멀티미디어 컨텐츠에 사용된 상기 대표 썸네일 이미지를 디스플레이 상 제1 크기로 출력함과 함께, 상기 대표 썸네일 이미지 선택에 사용되었던 영상 리소스들의 썸네일 이미지들을 상기 사용자 조회 이력 정보에 기초하여 제2 크기로 출력할 수 있다.

일 실시 예에 의하면, 전자 장치(1000)는 상기 서버(2000)로부터, 상기 대표 썸네일 이미지로 결정되지 않은 썸네일 이미지들 각각에 후술할 썸네일 제목이 중첩 합성된 후보 썸네일 이미지들을 획득하고, 상기 획득된 중첩 합성된 후보 썸네일 이미지들을 상기 후보 썸네일 이미지들로 출력할 수 있다.

도 3은 일 실시 예에 따른 전자 장치가 출력한 순서 변경 인터페이스에 대한 사용자 입력을 획득하는 과정을 구체적으로 설명하기 위한 흐름도이다.

S310에서, 전자 장치(1000)는 상기 멀티미디어 컨텐츠 생성에 사용된 영상 리소스들에 대한 문단들 중, 인접하거나, 인접하지 않은 2이상의 문단들 사이의 문맥 유사도를 식별할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 프롬프트에 대해 수행되는 형태소 분석에 기초하여, 문단 별 복수의 형태소 키워드들을 획득할 수 있다. 예를 들어, 전자 장치(1000)는 OKT 형태소 분석기를 이용하여 텍스트에 대한 형태소 분석을 수행할 수 있다. 다만, 이에 한정되는 것은 아니고, 경우에 따라 Komoran, Hannanum, Kkma 형태소 분석기 등 다양한 형태소 분석기가 이용될 수 있음은 물론이다.

일 실시 예에 의하면, 전자 장치(1000)는 상기 획득된 문단 별 복수의 형태소 키워드들의 사용 빈도 및 상기 형태소 키워드들로 구성되는 키워드 네트워크의 유사도에 기초하여, 상기 2이상의 문단들 사이의 문맥 유사도를 식별할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 상기 프롬프트의 문단 별 형태소 키워드들의 사용 빈도 및 형태소 키워드들 사이의 연결 관계 중 적어도 하나에 관한 키워드 네트워크를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 상기 문단 별 형태소 키워드들의 사용 빈도와 연결 관계에 관한 키워드 네트워크들 사이의 코사인 유사도, 자카드 유사도, 그래프 유사도 중 적어도 하나에 따른 유사도 판별 기법을 적용하여 키워드 네트워크들 사이의 유사도에 기초하여 상기 문단들 사이의 문맥 유사도를 식별할 수 있다.

S320에서, 전자 장치(1000)는 상기 식별된 문맥 유사도가 기 설정된 임계 유사도 이상으로 식별되는 경우, 상기 멀티미디어 컨텐츠 생성에 사용된 영상 리소스들의 썸네일 이미지들을 출력함과 함께, 상기 멀티미디어 컨텐츠 생성에 사용된 영상 리소스들의 순서 변경에 관한 순서 변경 인터페이스를 출력할 수 있다. 일 실시 예에 의하면, 상기 순서 변경 인터페이스는 상기 식별된 문맥 유사도가 상기 임계 유사도 이상으로 식별되면, 상기 영상 리소스들의 썸네일 이미지들을 출력함으로써, 사용자에게 영상 리소스들의 순서 변경을 포함하는 멀티미디어 컨텐츠 편집 기능을 제공할 수 있다.

S330에서, 전자 장치(1000)는 상기 순서 변경 인터페이스에 대한 제2 사용자 입력이 획득되면, 상기 획득된 제2 사용자 입력을 상기 전자 장치와 연결된 서버로 전송할 수 있다.

도 4는 일 실시 예에 따른 서버가 대표 썸네일 이미지를 결정하는 과정을 설명하기 위한 흐름도이다.

S410에서, 서버(2000)는 상기 렌더링 영상에 사용된 영상 리소스들 각각에 포함된 복수의 프레임 이미지들에 대한 SNS 조회수, 미디어 플랫폼 조회수 또는 스킵 빈도수 중 적어도 하나를 포함하는 조회 이력 정보를 식별할 수 있다. 일 실시 예에 의하면, 조회 이력 정보는 상기 복수의 프레임 이미지들이 포함된 컨텐츠에서 SNS 또는 미디어 플랫폼 사용자의 조회수와, 상기 컨텐츠가 영상인 경우, 해당 프레임 이미지가 포함된 소정의 구간 내에서 다른 구간으로 스킵한 빈도수를 포함할 수 있다. 일 실시 예에 의하면, 서버(2000)는 영상 리소스들 각각의 복수의 프레임 이미지들에 대한 조회 이력 정보에 기초하여, 영상 리소스들에 대한 조회 이력 점수를 결정할 수도 있다. 후술하는 바와 같이, 서버(2000)는 영상 리소스들에 대한 조회 이력 점수에 기초하여, 영상 리소스들의 썸네일 이미지들 중, 하나의 썸네일 이미지를 대표 썸네일 이미지로 결정할 수도 있다.

S420에서, 서버(2000)는 상기 식별된 조회 이력 정보에 기초하여, 상기 복수의 프레임 이미지들에 대한 썸네일 우선순위를 결정하기 위한 썸네일 점수를 결정할 수 있다. 일 실시 예에 의하면, 서버(2000)는 상기 SNS 조회수, 미디어 플랫폼 조회수 및 스킵 빈도수에 대한 미리 결정된 가중치를 적용함으로써, 복수의 프레임 이미지들에 대한 썸네일 점수를 결정할 수 있다. 예를 들어, 서버(2000)는 상기 SNS 조회수 및 미디어 플랫폼 조회수에 양의 가중치를 적용하고, 상기 스킵 빈도수에 음의 가중치를 적용함으로써 최종 썸네일 점수를 결정할 수 있다.

S430에서, 서버(2000)는 상기 복수의 프레임 이미지들 중, 상기 썸네일 점수가 가장 높은 제1 우선순위의 프레임 이미지를 상기 영상 리소스들 각각의 썸네일 이미지로 결정할 수 있다. 일 실시 예에 의하면, 서버(2000)는 썸네일 점수가 큰 순서로 상기 복수의 프레임 이미지들에 대한 우선순위를 결정할 수 있으며, 썸네일 점수가 가장 높은 복수의 프레임 이미지를 제1 우선순위의 프레임 이미지로 결정하고, 결정된 제1 우선순위의 프레임 이미지를 영상 리소스의 썸네일 이미지로 결정할 수 있다.

S440에서, 서버(2000)는 상기 영상 리소스들 각각의 조회 이력 정보에 기초하여, 상기 썸네일 이미지 중 하나를 상기 대표 썸네일 이미지로 결정할 수 있다. 일 실시 예에 의하면, 서버(2000)는 상기 결정된 영상 리소스들 각각의 썸네일 이미지들 중, 렌더링 영상 전체에 대한 대표 썸네일 이미지를 결정하기 위해 상기 썸네일 이미지들 중 조회 이력 정보에 의해 산출되는 썸네일 점수가 가장 높은 하나의 썸네일 이미지를 상기 대표 썸네일 이미지로 결정할 수 있다. 예를 들어, 서버(2000)는 상기 대표 썸네일 이미지 결정을 위해 상기 영상 리소스들의 썸네일 이미지들에 대한 썸네일 점수를 비교하는 과정에서, 상기 영상 리소스들의 SNS 및 미디어 플랫폼 노출 기간에 대한 가중치를 적용함으로써, 비교적 오래된 영상과 최근 업로드된 영상에 대한 썸네일 점수를 정확하게 비교할 수 있다.

또 다른 실시 예에 의하면, 서버(2000)는 상기 영상 리소스들에 대한 SNS 조회수, 미디어 플랫폼 조회수 또는 이탈 빈도수 중 적어도 하나를 포함하는 조회 이력 정보에 기초하여, 상기 대표 썸네일 이미지를 결정할 수 있다. 예를 들어, 서버(2000)는 상술한 과정을 통해 결정된 제1 우선순위의 썸네일 이미지들 중, 각 영상 리소스들의 조회 이력 정보를 비교함으로써 산출되는 인기 지수가 가장 높은 영상 리소스의 제1 우선순위의 썸네일 이미지를 상기 대표 썸네일 이미지로 결정할 수 있다. 일 실시 예에 의하면, 이탈 빈도수는 상기 영상 리소스를 조회한 직후 영상의 길이에 따라 미리 결정된 소정의 시간 내에 이탈한 시간이 임계 시간 이하인 경우가 식별된 횟수일 수 있다.

일 실시 예에 의하면, 상기 서버(2000)는 각 영상 리소스들에 대한 상기 SNS 조회수 및 미디어 플랫폼 조회수에 양의 가중치를 적용하고, 상기 이탈 빈도수에 음의 가중치를 적용함으로써 최종 인기 지수를 결정할 수 있다.

도 4에는 도시되지 않았지만, 일 실시 예에 의하면, 서버(2000)는 상기 렌더링 영상의 생성에 사용된 영상 리소스들과, 상기 렌더링 영상에 사용된 영상 리소스들과 관련된 영상 리소스들을 포함하는 영상 리소스 그룹 내 영상 리소스들의 썸네일 이미지상에 나타나는 썸네일 제목들을 식별할 수 있다. 예를 들어, 상기 썸네일 제목들은 상기 렌더링 영상과 관련된 텍스트 문구를 포함할 수 있으며, SNS 또는 미디어 플랫폼 사용자의 조회를 유도할 수 있도록 사용되는 문구를 포함할 수도 있다.

또한, 일 실시 예에 의하면, 서버(2000)는 상기 프롬프트의 문단 별로 식별된 핵심 키워드와, 상기 핵심 키워드들이 속하는 토픽 키워드들을 출력하는 토픽 모델링 모델(LDA: Latent Dirichlet Allocation)로부터 획득된 토픽 키워드에 기초하여, 상기 식별된 썸네일 제목들 중 하나의 썸네일 제목을 상기 대표 썸네일 이미지에 대한 대표 썸네일 제목으로 결정할 수 있다. 일 실시 예에 의하면, 토픽 모델링 모델은 입력된 키워드들에 기초하여, 상기 프롬프트에 어떤 토픽이 존재하는지를 알아내기 위한 알고리즘일 수 있다. 예를 들어, 토픽 모델링 모델은 프롬프트 내 문단 별로 결정되는 핵심 키워드들 중 적어도 하나 이상의 키워드들을 포함하는 상위 개념의 키워드들을 출력할 수 있다. 일 실시 예에 의하면, 서버(2000)는 상기 프롬프트 내 문단 별 핵심 키워드들과 토픽 모델링 모델로부터 출력된 토픽 키워드들을 조합함으로써 상기 렌더링 영상과 관련된 썸네일 제목을 결정할 수도 있다.

또 다른 실시 예에 의하면, 서버(2000)는 프롬프트 내 문단 별 핵심 키워드들과 토픽 모델링 모델로부터 출력된 토픽 키워드들을 자연어 처리 모델에 입력하고, 자연어 처리 모델로부터, 상기 토픽 키워드들 및 상기 핵심 키워드들에 기초하여 생성된 문장들을 획득하고, 획득된 문장들에 기초하여 썸네일 제목을 결정할 수도 있다.

도 5는 일 실시 예에 따른 전자 장치가 순서 변경 인터페이스를 출력하는 과정을 설명하기 위한 흐름도이다.

S510에서, 전자 장치(1000)는 상기 문단들 중, 상기 식별된 문맥 유사도가 기 설정된 임계 유사도 이상으로 식별되는 2개의 문단들을 포함하는 적어도 하나의 문단 쌍을 식별할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 멀티미디어 컨텐츠 생성에 사용되는 프롬프트의 각 문단들 사이의 문맥 유사도가 임계 유사도 이상인 문단 쌍을 식별할 수 있다. 예를 들어, 문맥 유사도는 상술한 것과 같이, 전자 장치(1000)에 의해 문단 별 복수의 형태소 키워드들의 사용 빈도 및 상기 형태소 키워드들로 구성되는 키워드 네트워크의 유사도에 기초하여 식별될 수 있다.

S520에서, 전자 장치(1000)는 상기 적어도 하나의 문단 쌍에 대응되는 적어도 하나의 영상 리소스 쌍을 식별할 수 있다.

S530에서, 전자 장치(1000)는 상기 식별된 적어도 하나의 영상 리소스 쌍에 포함된 2개 영상 리소스 별 썸네일 이미지상에, 상기 적어도 하나의 영상 리소스 쌍 단위로 구분되도록 하는 적어도 하나의 타입의 리소스 그룹 식별자들을, 상기 영상 리소스 쌍에 포함된 2개 영상 리소스 별 썸네일 이미지상에 중첩하여 표시할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 각 영상 리소스 쌍에 대응되는 썸네일 이미지에 동일한 형태를 가지는 리소스 그룹 식별자들을 중첩 합성하여 표시함으로써, 사용자는 디스플레이 상에 표시되는 썸네일 이미지 상 리소스 그룹 식별자들을 통해, 유사한 영상 리소스 쌍을 직관적으로 구분할 수 있다. 예를 들어, 전자 장치(1000)는 복수의 영상 리소스들 중 제1 영상 리소스와 제3 영상 리소스가 하나의 영상 리소스 쌍으로 식별되면, 상기 제1 영상 리소스와 상기 제3 영상 리소스의 썸네일 이미지 상에 동그라미 형태의 리소스 그룹 식별자를 각각 중첩하여 표시할 수 있다.

일 실시 예에 의하면, 리소스 그룹 식별자는 사용자가 상기 영상 리소스에 대한 유사도 구분과 함께, 상기 리소스 그룹 식별자가 표시된 영역에 대한 사용자 입력(예컨대 마우스 클릭 입력 또는 그룹 식별자가 표시된 디스플레이가 터치 패널을 포함하는 경우, 터치 패널에 대한 터치 입력)에 기초하여, 상기 영상 리소스에 대한 순서 변경, 순서 정렬 및 영상 교체를 포함하는 편집 기능을 수행할 수 있도록 하는 인터페이스 또는 그래픽 사용자 인터페이스 일 수 있다.

도 6은 일 실시 예에 따른 전자 장치가 순서 변경 인터페이스에 대한 사용자 입력을 서버로 전송하는 과정을 설명하기 위한 흐름도이다.

도 7은 일 실시 예에 따른 순서 변경 인터페이스의 출력 화면을 나타내는 도면이다.

도 6 및 도 7을 참조하여 전자 장치(1000)가 순서 변경 인터페이스에 대한 사용자 입력에 기초하여, 렌더링 영상에 사용된 영상 리소스들의 순서 변경, 순서 정렬 및 영상 교체를 수행하는 과정을 설명하기로 한다.

S610에서, 전자 장치(1000)는 상기 리소스 그룹 식별자들 중, 동일한 타입의 리소스 그룹 식별자들에 포함된 하나의 그룹 식별자(722)에 관한 제1 그룹 식별자 영역(724)에 대한 제3 사용자 입력(726)의 발생이 식별되는지 여부를 확인할 수 있다. 예를 들어, 제3 사용자 입력(726)은 하나의 그룹 식별자(722)가 표시된 제1 그룹 식별자 영역(724)에 대한 클릭 입력 또는 터치 입력에 관한 사용자 입력을 포함할 수 있다.

S620에서, 전자 장치(1000)는 상기 제3 사용자 입력의 발생이 확인되면, 상기 제3 사용자 입력이 발생된 위치에서 상기 동일한 타입의 리소스 그룹 식별자들에 포함된 다른 하나의 그룹 식별자(734)에 대한 방향에 대응되는 방향으로 드래그 입력이 발생되는지 여부를 확인할 수 있다.

S630에서, 전자 장치(1000)는 상기 드래그 입력이 종료되는 위치가 상기 다른 하나의 그룹 식별자(732)에 관한 제2 그룹 식별자 영역(734) 내인지 여부를 확인할 수 있다.

S640에서, 전자 장치(1000)는 상기 드래그 입력이 종료되는 위치가 상기 제2 그룹 식별자 영역(734) 내로 확인되면, 상기 동일한 타입의 리소스 그룹 식별자들이 중첩하여 표시된 영상 리소스들의 렌더링 순서 변경에 관한 상기 제2 사용자 입력을 상기 서버로 전송할 수 있다.

일 실시 예에 의하면, 전자 장치(1000)는 상기 드래그 입력이 종료되는 위치에서 식별되는 사용자 입력 면적(728)이 상기 제2 그룹 식별자 영역(734)의 면적에 중첩되는 중첩 비율과, 상기 사용자 입력 면적(728)이 상기 제2 그룹 식별자 영역(734)의 면적에 중첩되는 면적이 임계 면적으로 이상으로 식별되는 시점으로부터, 상기 드래그 입력이 종료되는 시간까지 걸리는 시간이 임계 시간 이상인지 여부에 기초하여, 상기 제2 사용자 입력을 서버(2000)로 전송할 수 있다.

예를 들어, 상기 사용자 입력 면적(728)은 사용자 입력이 터치 입력인 경우, 사용자의 손가락이 터치 패널에 대해 접촉되는 면적을 포함할 수 있으며, 사용자 입력이 마우스에 의한 클릭 입력인 경우, 사용자가 제1 그룹 식별자 영역(724)을 클릭했을 때, 마우스 포인트에 대응되는 소정의 포인트 영역을 포함할 수 있다.

일 실시 예에 의하면, 전자 장치(1000)는 상기 사용자 입력 면적(728)이 제2 그룹 식별자 영역(734)의 면적에 중첩되는 중첩 비율과 상기 중첩 비율이 임계 비율 이상일 때 유지되는 시간이 임계 시간 이상인 경우, 상기 제2 사용자 입력을 서버(2000)로 전송함으로써 영상 리소스 쌍의 순서를 서로 변경할 수 있다.

또 다른 실시 예에 의하면, 전자 장치(1000)는 상기 드래그 입력이 종료되는 위치가 다른 하나의 그룹 식별자에 관한 제2 그룹 식별자 영역(744)의 좌 방향에 인접한 제1 가이드 영역(743) 또는 우 방향에 인접한 제2 가이드 영역(745) 내 인지 여부를 확인한 후, 상기 드래그 입력이 종료되는 위치가 상기 제1 가이드 영역(743) 또는 상기 제2 가이드 영역(745) 내로 확인되면, 상기 제3 사용자 입력이 발생된 영상 리소스의 렌더링 순서 이동에 관한 제4 사용자 입력을 상기 서버로 전송할 수 있다. 예를 들어, 전자 장치(1000)는 하나의 그룹 식별자에 대한 제3 사용자 입력이 식별된 후, 제1 가이드 영역(743)에서 드래그 입력이 종료된 것으로 확인되는 경우, 상기 하나의 그룹 식별자를 포함하는 영상 리소스를 다른 하나의 그룹 식별자를 포함하는 영상 리소스의 앞으로 이동시킴으로써, 렌더링 영상 내 영상 리소스의 순서를 이동시킬 수 있다. 예를 들어, 썸네일 이미지 4에 대한 제1 가이드 영역(743) 및 제2 가이드 영역(745)은 썸네일 이미지 3과 일부 중첩될 수 있으며, 그룹 식별자 영역(744)에서 미리 설정된 거리만큼 이격될 수 있다.

일 실시 예에 의하면, 전자 장치(1000)는 상기 드래그 입력이 종료되는 위치에서 식별되는 사용자 입력 면적(728)이 상기 제1 가이드 영역(743) 또는 상기 제2 가이드 영역(745)의 면적에 중첩되는 중첩 비율과, 상기 사용자 입력 면적(728)이 상기 제1 가이드 영역(743) 또는 상기 제2 가이드 영역(745)의 면적에 중첩되는 면적이 임계 면적으로 이상으로 식별되는 시점으로부터, 상기 드래그 입력이 종료되는 시간까지 걸리는 시간이 임계 시간 이상인지 여부에 기초하여, 상기 제4 사용자 입력을 상기 서버로 전송할 수 있다.

일 실시 예에 의하면, 전자 장치(1000)는 상기 사용자 입력 면적(728)이 제1 가이드 영역(743) 또는 제2 가이드 영역(745)의 면적에 중첩되는 중첩 비율과 상기 중첩 비율이 임계 비율 이상일 때 유지되는 시간이 임계 시간 이상인 경우, 상기 제4 사용자 입력을 서버(2000)로 전송함으로써 영상 리소스의 순서를 이동시킬 수 있다.

일 실시 예에 의하면, 전자 장치(1000)는 제3 사용자 입력(726)이 썸네일 이미지 상 그룹 식별자 영역 외에 식별되는 경우, 상기 썸네일 이미지에 대응되는 영상 리소스가 재생시킴과 함께, 상기 영상 리소스에 대한 조회 이력 정보를 출력할 수도 있다.

일 실시 예에 의하면, 전자 장치(1000)는 상기 제1 그룹 식별자 영역(724)에 대한 제3 사용자 입력(726)의 발생이 소정의 시간 범위 내에 임계 횟수 이상 식별되는지 여부를 확인한 후, 상기 제3 사용자 입력의 발생이 소정의 시간 범위 내에 임계 횟수 이상 식별되는 것으로 확인되면, 상기 제3 사용자 입력이 발생된 영상 리소스를 대체할 수 있는 후보 영상들의 썸네일 이미지 및 상기 후보 영상들의 썸네일 이미지 상에 상기 영상 리소스와 동일한 타입의 리소스 그룹 식별자가 표시된 창이 출력되도록, 영상 리소스 변경에 관한 제5 사용자 입력을 서버(2000)로 전송할 수 있다. 예를 들어, 전자 장치(1000)는 제1 그룹 식별자 영역(724)에 대한 소정의 시간 범위 내 연속적인 사용자 입력(예컨대 더블 클릭, 연속 터치)가 식별되는 것으로 확인되면, 상기 영상 리소스를 다른 영상으로 교체하기 위한 영상 교체 인터페이스를 출력할 수 있다.

일 실시 예에 의하면, 영상 교체 인터페이스는 상기 영상 리소스와 관련된 후보 영상들에 대한 썸네일 이미지와, 상기 썸네일 이미지 상에 제1 그룹 식별자 영역(724) 내 표시된 그룹 식별자와 동일한 형태의 식별자가 표시될 수 있다. 또한, 일 실시 예에 의하면, 상기 후보 영상들은 상기 영상 리소스에 대응되는 프롬프트의 문단에 기초하여 생성된 또 다른 영상들을 포함할 수 있다.

일 실시 예에 의하면, 제3 사용자 입력이 발생된 영상 리소스를 대체할 수 있는 후보 영상들은, 상기 제3 사용자 입력이 발생된 영상 리소스들의 문맥이 입력되면, 상기 입력된 문맥에 따른 복수의 영상 리소스들을 출력하는 인공지능 기반 영상 생성 모델로부터 획득될 수 있다.

또 다른 예에 의하면 상기 후보 영상들은 상기 제3 사용자 입력이 발생된 영상 리소스의 문맥과, 상기 제3 사용자 입력이 발생된 영상 리소스에 인접한 영상 리소스들의 문맥이 함께 입력되면, 상기 제3 사용자 입력이 발생된 영상 리소스 및 인접한 영상 리소스들의 결합 문맥에 기초하여 후보 영상들을 출력하는 인공지능 기반 영상 생성 모델로부터 획득될 수도 있다. 예를 들어, 전자 장치(1000)는 하나의 문단에 대한 문맥 뿐 아니라, 인접한 전후 문단과 결합된 결합 문맥에 기초한 후보 영상들을 상기 영상 생성 모델로부터 획득함으로써, 사용자에게 프롬프트 내 다른 문단과의 문맥이 유사하더라도 다른 영상 리소스들을 추천할 수 있도록, 상기 후보 영상들을 출력할 수 있다.

또 다른 예에 의하면, 상기 후보 영상들은 상기 제3 사용자 입력이 발생된 영상 리소스의 문맥을 고려하지 않고, 상기 제3 사용자 입력이 발생된 영상 리소스에 인접한 영상 리소스들의 문맥이 함께 입력되면, 상기 제3 사용자 입력이 발생된 영상 리소스에 인접한 영상 리소스들의 결합 문맥에 기초하여 후보 영상들을 출력하는 인공지능 기반 영상 생성 모델로부터 획득될 수도 있다. 본 개시에 따른 서버 내지 전자 장치는 제3 사용자 입력이 식별되는 경우, 해당 영상 리소스를 대체하기 위한 후보 리소스들을 출력함에 있어, 제3 사용자 입력에 따라 선택된 영상 리소스의 문맥이 아닌, 인접한 문맥을 고려하여 후보 영상들을 추천함으로써, 제3 사용자 입력에 따른 사용자의 의사를 더 능동적으로 반영할 수 있다.

도 7에는 도시되지 않았지만, 일 실시 예에 의하면, 전자 장치(1000)는 상기 대표 썸네일 이미지가 합성된 멀티미디어 컨텐츠를 재생하는 동안 상기 합성된 멀티미디어 컨텐츠에 대한 프레임 이미지들을 인공지능 모델에 입력하고, 상기 인공지능 모델로부터, 상기 멀티미디어 컨텐츠 내 동일하거나 유사한 영상 리소스들이 반복 재생되고 있는지 여부에 대한 출력 값을 획득할 수 있다. 본 개시에 따른 전자 장치(1000)는 대표 썸네일 이미지가 합성된 멀티미디어 컨텐츠가 재생되는 동안, 영상 내 정보를 모니터링함으로써 동일하거나 유사한 영상 리소스들이 반복하여 재생되고 있는지 여부를 모니터링할 수도 있다.

일 실시 예에 의하면, 상기 인공지능 모델은, 합성곱신경망(CNN) 또는 LSTM(Long Short Term Memory) 중 적어도 하나를 포함하고, 상기 인공지능 모델은, 프레임 이미지 별로 추출된 이미지 특징들을 획득하고, 프레임 이미지 별 획득된 이미지 특징들이 시계열적으로 나타내는 영상 패턴에 기초하여 동일하거나 유사한 영상 리소스 반복 재생 여부를 분류하는 신경망 기반 네트워크 모델일 수 있다. 본 개시의 전자 장치(1000)는 프롬프트의 문단 별 문맥의 유사도에 기초하여 1차적으로 영상 순서 변경에 대한 인터페이스를 제공할 뿐만 아니라, 문맥 유사도에 의해 순서 변경 인터페이스가 출력되지 않더라도, 실제 렌더링되고 있는 멀티미디어 컨텐츠상 유사하거나 중복 영상이 재생되고 있는지 여부를 모니터링함으로써 2차적으로 영상 순서 변경에 대한 인터페이스 출력 여부를 결정할 수 있다. 상술한 과정을 통해 멀티미디어 컨텐츠의 동일하거나 유사한 영상 리소스의 반복 재생 여부를 식별함으로써, 동일한 영상 리소스가 하나의 멀티미디어 컨텐츠 내에 반복 재생이 되지 않도록, 문맥 유사도 뿐 아니라 프레임 이미지들을 통해서도 검증함과 함께 합성된 멀티미디어 컨텐츠에 대한 사용자 만족을 향상시킬 수 있다.

도 8은 일 실시 예에 따른 전자 장치의 블록도이다.

도 9는 또 다른 실시 예에 따른 전자 장치의 블록도이다.

일 실시 예에 의하면, 전자 장치(1000)는 네트워크 인터페이스(1500), 디스플레이(1210), 메모리(1700) 및 프로세서(1300)를 포함할 수 있다. 그러나, 도시된 구성 요소가 모두 필수구성요소인 것은 아니다. 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 그 보다 적은 구성 요소에 의해서도 전자 장치(1000)는 구현될 수도 있다.

예를 들어, 도 8에 도시된 바와 같이, 일 실시 예에 따른 전자 장치(1000)는 프로세서(1300), 디스플레이(1210), 메모리(1700) 및 네트워크 인터페이스(1500) 이외에 사용자 입력 인터페이스(1100), 출력부(1200), 센싱부(1400), A/V 입력부(1600)를 더 포함할 수도 있다.

사용자 입력 인터페이스(1100)는, 사용자가 전자 장치(1000)를 제어하기 위한 시퀀스를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력 인터페이스(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다. 사용자 입력 인터페이스(1100)는 전자 장치(1000)가 디스플레이 상에 출력한 화면에 대한 사용자의 입력 시퀀스를 수신할 수 있다. 또한, 사용자 입력 인터페이스(1100)는 디스플레이를 터치하는 사용자의 터치 입력 또는 디스플레이상 그래픽 사용자 인터페이스를 통한 키 입력을 수신할 수도 있다.

출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.

디스플레이(1210)는 전자 장치(1000)에서 처리되는 정보를 표시 출력하기 위한 화면을 포함한다. 음향 출력부(1220)는 네트워크 인터페이스(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부(1220)는 전자 장치(1000)에서 수행되는 기능과 관련된 음향 신호를 출력한다. 진동 모터(1230)는 진동 신호를 출력할 수 있다.

프로세서(1300)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 네트워크 인터페이스(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. 또한, 프로세서(1300)는 메모리(1700)에 저장된 프로그램들을 실행함으로써, 도1 내지 도 7에 기재된 전자 장치(1000)의 기능을 수행할 수 있다.

구체적으로, 프로세서(1300)는 사용자 입력부를 제어함으로써 전자 장치(1000)의 화면을 터치하는 사용자의 입력을 획득할 수 있다. 일 실시 예에 의하면, 프로세서(1300)는 사용자의 음성을 획득하도록 마이크로폰을 제어할 수도 있다.

센싱부(1400)는, 전자 장치(1000)의 상태 또는 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다. 센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.

네트워크 인터페이스(1500)는, 전자 장치(1000)가 다른 장치(미도시) 및 서버(2000)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 다른 장치(미도시)는 전자 장치(1000)와 같은 컴퓨팅 장치이거나, 센싱 장치일 수 있으나, 이에 제한되지 않는다. 예를 들어, 네트워크 인터페이스(1500)는, 무선 통신 인터페이스(1510), 유선 통신 인터페이스(1520) 및 이동 통신부(530)를 포함할 수 있다.

무선 통신 인터페이스(1510)는 근거리 통신부(short-range wireless communication unit), 블루투스 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 유선 통신 인터페이스(1520)는 서버(2000)또는 전자 장치(1000)를 유선으로 연결할 수 있다.

이동 통신부(1530)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

일 실시 예에 의하면, 네트워크 인터페이스(1500)는 멀티미디어 컨텐츠 생성을 위한 프롬프트 또는 렌더링 영상의 편집에 관한 사용자 입력을 서버로 전송할 수도 있다.

A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.

마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(1620)은 외부 디바이스 또는 사용자로부터 음향 신호를 수신할 수 있다. 마이크로폰(1620)은 사용자의 음성 입력을 수신할 수 있다. 마이크로폰(1620)은 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.

메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나, 출력되는 데이터를 저장할 수도 있다. 또한, 메모리(1700)는 전자 장치(1000)가 외부 디바이스로부터 획득한 프롬프트를 저장할 수도 있다.

메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다. UI 모듈(1710)은, 애플리케이션 별로 전자 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시 예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.

알림 모듈(1730)은 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. 전자 장치(1000)에서 발생되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 일정 알림 등이 있다. 알림 모듈(1730)은 디스플레이부(1210)를 통해 비디오 신호 형태로 알림 신호를 출력할 수도 있고, 음향 출력부(1220)를 통해 오디오 신호 형태로 알림 신호를 출력할 수도 있고, 진동 모터(1230)를 통해 진동 신호 형태로 알림 신호를 출력할 수도 있다.

도 10은 일 실시 예에 따른 서버의 블록도이다.

일 실시 예에 의하면, 서버(2000)는 네트워크 인터페이스(2100), 데이터 베이스(2200) 및 프로세서(2300)를 포함할 수 있다. 일 실시 예에 의하면 서버(2000)는 상기 전자 장치로부터 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들의 합성 요청에 관한 제1 사용자 입력을 획득하고, 상기 획득된 제1 사용자 입력에 기초하여, 상기 영상 리소스들을 합성함으로써 생성된 렌더링 영상과, 상기 렌더링 영상의 생성에 사용된 영상 리소스들의 썸네일 이미지들 중, 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성함으로써 멀티미디어 컨텐츠를 생성하고, 상기 전자 장치로 상기 생성된 멀티미디어 컨텐츠를 전송하고, 상기 전자 장치로 상기 대표 썸네일 이미지 및 상기 대표 썸네일 이미지를 대신하여 변경 가능한 적어도 하나의 후보 썸네일 이미지들을 전송하는 서버에 대응될 수 있다. 네트워크 인터페이스(2100)는 도 8 내지 9에 도시된 전자 장치(1000)의 네트워크 인터페이스(1500)에 대응될 수 있다. 예를 들어, 네트워크 인터페이스(2100)는 전자 장치(1000)로부터 멀티미디어 컨텐츠 생성에 관한 프롬프트 및 생성된 멀티미디어 컨텐츠에 관한 순서 변경 인터페이스에 대한 사용자 입력을 획득할 수도 있다.

일 실시 예에 의하면, 데이터 베이스(2200)는 도 8 내지 9에 도시된 전자 장치(1000)의 메모리(1700)에 대응될 수 있다.

일 실시 예에 의하면, 프로세서(2300)는 도 9의 전자 장치의 인터페이스를 서버 장치의 사용자인 관리자들에게 제공할 수도 있다. 또한, 프로세서(2300)는 통상적으로 서버(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, 서버(2000)의 DB(2200)에 저장된 프로그램들을 실행함으로써, DB(2200) 및 네트워크 인터페이스(2100) 등을 전반적으로 제어할 수 있다. 또한, 프로세서(2300)는 DB(2100)에 저장된 프로그램들을 실행함으로써, 도 1 내지 도 9에서 상술한 전자 장치(1000)의 전부 또는 일부의 기능을 함께 수행할 수 있다.

도 11은 일 실시 예에 따른 전자 장치 및 서버가 서로 연동함으로써 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 과정을 설명하기 위한 도면이다.

S1101에서, 서버(2000)는 인공지능 기반 영상 생성 모델을 미리 구축 및 학습시킬 수 있다. 예를 들어, 서버(2000)는 텍스트의 문단 별 핵심 키워드가 입력되면, 입력된 핵심 키워드에 기초하여 문단들 별 영상 리소스를 매칭함으로써 영상을 생성하는 인공지능 기반 영상 생성 모델을 미리 학습시킬 수 있다. 또한, 서버(2000)는 프롬프트가 입력되면, 입력된 프롬프트를 소정의 문단들로 분할하고, 분할된 문단들 별 영상 리소스를 매칭함으로써 영상을 생성하는 인공지능 기반 영상 생성 모델을 미리 학습시킬 수도 있다.

S1102에서, 전자 장치(1000)는 사용자 입력 또는 외부 디바이스로부터 적어도 하나의 문단을 포함하는 프롬프트를 획득할 수 있다. S1104에서, 전자 장치(1000)는 획득된 프롬프트를 서버(2000)로 전송할 수 있다. S1106에서, 서버(2000)는 상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 영상 리소스를 매칭할 수 있다. S1108에서, 서버(2000)는 상기 매칭된 영상 리소스를 전자 장치(1000)로 전송할 수 있다.

S1110에서, 전자 장치(1000)는 상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들을 상기 문맥의 순서에 따라 출력할 수 있다. S1112에서, 전자 장치(1000)는 상기 출력된 문맥의 순서에 따라 상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력을 획득할 수 있다.

S1114에서, 전자 장치(1000)는 상기 제1 사용자 입력을 서버(2000)로 전송할 수 있다. S1116에서, 서버(2000)는 상기 제1 사용자 입력에 기초하여, 상기 영상 리소스들을 합성함으로써 생성된 렌더링 영상과, 상기 렌더링 영상의 생성에 사용된 영상 리소스들의 썸네일 이미지들 중, 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성함으로써 생성된, 멀티미디어 컨텐츠를 생성할 수 있다. S1118에서, 서버(2000)는 멀티미디어 컨텐츠 생성에 사용된 대표 썸네일 이미지 및 상기 대표 썸네일 이미지 생성에 사용된 후보 썸네일 이미지들 및 상기 멀티미디어 컨텐츠를 전자 장치(1000)로 전송할 수 있다. S1120에서, 전자 장치(1000)는 상기 대표 썸네일 이미지, 후보 썸네일 이미지 및 멀티미디어 컨텐츠를 출력할 수 있다.

본 개시에 따른 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.

Claims

전자 장치가 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 방법에 있어서,
외부 디바이스로부터 복수의 문단들을 포함하는 프롬프트를 획득하는 단계;
상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들을 상기 문맥의 순서에 따라 출력하는 단계;
상기 출력된 문맥의 순서에 따라 상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력에 기초하여, 상기 영상 리소스들을 합성함으로써 생성된 렌더링 영상과, 상기 렌더링 영상의 생성에 사용된 영상 리소스들의 썸네일 이미지들 중, 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성함으로써 생성된, 멀티미디어 컨텐츠를 획득하는 단계; 및
상기 대표 썸네일 이미지를 디스플레이 상에 출력함과 함께, 상기 대표 썸네일 이미지를 대신하여 변경 가능한 적어도 하나의 후보 썸네일 이미지들을 출력하는 단계; 를 포함하는, 방법.
제1항에 있어서, 상기 방법은
상기 멀티미디어 컨텐츠 생성에 사용된 영상 리소스들에 대한 문단들 중, 인접하거나, 인접하지 않은 2이상의 문단들 사이의 문맥 유사도를 식별하는 단계;
상기 식별된 문맥 유사도가 기 설정된 임계 유사도 이상으로 식별되는 경우, 상기 멀티미디어 컨텐츠 생성에 사용된 영상 리소스들의 썸네일 이미지들을 출력함과 함께, 상기 멀티미디어 컨텐츠 생성에 사용된 영상 리소스들의 순서 변경에 관한 순서 변경 인터페이스를 출력하는 단계; 및
상기 순서 변경 인터페이스에 대한 제2 사용자 입력이 획득되면, 상기 획득된 제2 사용자 입력을 상기 전자 장치와 연결된 서버로 전송하는 단계; 를 포함하는, 방법.
제1항에 있어서, 상기 멀티미디어 컨텐츠를 획득하는 단계는
상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력을 획득하는 단계;
상기 획득된 제1 사용자 입력을 상기 전자 장치와 연결된 서버로 전송하는 단계; 및
상기 제1 사용자 입력을 상기 서버로 전송한 것에 응답하여, 상기 서버로부터 상기 멀티미디어 컨텐츠를 획득하는 단계; 를 포함하는, 방법.
제3항에 있어서, 상기 대표 썸네일 이미지는
상기 전자 장치와 연결된 서버에 의해 결정된 대표 썸네일 제목을 포함하고,
상기 대표 썸네일 제목은,
상기 렌더링 영상의 생성에 사용된 영상 리소스들과, 상기 렌더링 영상에 사용된 영상 리소스들과 관련된 영상 리소스들을 포함하는 영상 리소스 그룹 내 영상 리소스들의 썸네일 이미지상에 나타나는 썸네일 제목들 중,
상기 프롬프트의 문단 별로 식별되는 핵심 키워드들과, 상기 핵심 키워드들이 속하는 테마 키워드들을 출력하는 토픽 모델링 모델(LDA)로부터 획득된 토픽 키워드에 기초하여, 선택된 하나의 썸네일 제목인 것을 특징으로 하는, 방법.
제4항에 있어서, 상기 대표 썸네일 이미지는, 상기 서버에 의해,
상기 렌더링 영상에 사용된 영상 리소스들 각각에 포함된 복수의 프레임 이미지들에 대한 SNS 조회수, 미디어 플랫폼 조회수 또는 스킵 빈도수 중 적어도 하나를 포함하는 조회 이력 정보가 식별되면,
상기 식별된 조회 이력 정보에 기초하여, 상기 복수의 프레임 이미지들에 대한 썸네일 우선순위를 결정하기 위한 썸네일 점수가 결정되고,
상기 복수의 프레임 이미지들 중, 상기 썸네일 점수가 가장 높은 제1 우선순위의 프레임 이미지가 상기 영상 리소스들 각각의 썸네일 이미지로 결정되면,
상기 영상 리소스들 각각의 조회 이력 정보에 기초하여, 상기 썸네일 이미지 중 하나로 결정되는 것을 특징으로 하는, 방법.
제5항에 있어서, 상기 후보 썸네일 이미지들을 출력하는 단계는,
상기 서버로부터, 상기 대표 썸네일 이미지로 결정되지 않은 썸네일 이미지들 각각에 썸네일 제목이 중첩 합성된 후보 썸네일 이미지들을 획득하는 단계; 및
상기 획득된 중첩 합성된 후보 썸네일 이미지들을 상기 후보 썸네일 이미지들로 출력하는 단계; 를 포함하는, 방법.
제2항에 있어서, 상기 2이상의 문단들 사이의 문맥 유사도를 식별하는 단계는,
상기 프롬프트에 대해 수행되는 형태소 분석에 기초하여, 문단 별 복수의 형태소 키워드들을 획득하는 단계; 및
상기 획득된 문단 별 복수의 형태소 키워드들의 사용 빈도 및 상기 형태소 키워드들로 구성되는 키워드 네트워크의 유사도에 기초하여, 상기 2이상의 문단들 사이의 문맥 유사도를 식별하는 단계; 를 포함하는, 방법.
제7항에 있어서, 상기 순서 변경 인터페이스를 출력하는 단계는,
상기 문단들 중, 상기 식별된 문맥 유사도가 기 설정된 임계 유사도 이상으로 식별되는 2개의 문단들을 포함하는 적어도 하나의 문단 쌍을 식별하는 단계;
상기 적어도 하나의 문단 쌍에 대응되는 적어도 하나의 영상 리소스 쌍을 식별하는 단계; 및
상기 식별된 적어도 하나의 영상 리소스 쌍에 포함된 2개 영상 리소스 별 썸네일 이미지상에, 상기 적어도 하나의 영상 리소스 쌍 단위로 구분되도록 하는 적어도 하나의 타입의 리소스 그룹 식별자들을, 상기 영상 리소스 쌍에 포함된 2개 영상 리소스 별 썸네일 이미지상에 중첩하여 표시하는 단계; 를 포함하는, 방법.
제8항에 있어서, 상기 방법은
상기 리소스 그룹 식별자들 중, 동일한 타입의 리소스 그룹 식별자들에 포함된 하나의 그룹 식별자에 관한 제1 그룹 식별자 영역에 대한 제3 사용자 입력의 발생이 식별되는지 여부를 확인하는 단계;
상기 제3 사용자 입력의 발생이 확인되면, 상기 제3 사용자 입력이 발생된 위치에서 상기 동일한 타입의 리소스 그룹 식별자들에 포함된 다른 하나의 그룹 식별자에 대한 방향에 대응되는 방향으로 드래그 입력이 발생되는지 여부를 확인하는 단계;
상기 드래그 입력이 종료되는 위치가 상기 다른 하나의 그룹 식별자에 관한 제2 그룹 식별자 영역 내인지 여부를 확인하는 단계; 및
상기 드래그 입력이 종료되는 위치가 상기 제2 그룹 식별자 영역 내로 확인되면, 상기 동일한 타입의 리소스 그룹 식별자들이 중첩하여 표시된 영상 리소스들의 렌더링 순서 변경에 관한 상기 제2 사용자 입력을 상기 서버로 전송하는 단계; 를 포함하는, 방법.
제9항에 있어서, 상기 제2 사용자 입력을 상기 서버로 전송하는 단계는
상기 드래그 입력이 종료되는 위치에서 식별되는 사용자 입력 면적이 상기 제2 그룹 식별자 영역의 면적에 중첩되는 중첩 비율과,
상기 사용자 입력 면적이 상기 제2 그룹 식별자 영역의 면적에 중첩되는 면적이 임계 면적으로 이상으로 식별되는 시점으로부터, 상기 드래그 입력이 종료되는 시간까지 걸리는 시간이 임계 시간 이상인지 여부에 기초하여, 상기 제2 사용자 입력을 상기 서버로 전송하는 단계; 를 포함하는, 방법.
제9항에 있어서, 상기 방법은, 상기 드래그 입력이 발생되는지 여부를 확인하는 단계 이후,
상기 드래그 입력이 종료되는 위치가 상기 다른 하나의 그룹 식별자에 관한 제2 그룹 식별자 영역의 좌 방향에 인접한 제1 가이드 영역 또는 우 방향에 인접한 제2 가이드 영역 내 인지 여부를 확인하는 단계; 및
상기 드래그 입력이 종료되는 위치가 상기 제1 가이드 영역 또는 상기 제2 가이드 영역 내로 확인되면, 상기 제3 사용자 입력이 발생된 영상 리소스의 렌더링 순서 이동에 관한 제4 사용자 입력을 상기 서버로 전송하는 단계; 를 포함하는, 방법.
제11항에 있어서, 상기 제4 사용자 입력을 상기 서버로 전송하는 단계는
상기 드래그 입력이 종료되는 위치에서 식별되는 사용자 입력 면적이 상기 제1 가이드 영역 또는 상기 제2 가이드 영역의 면적에 중첩되는 중첩 비율과,
상기 사용자 입력 면적이 상기 제1 가이드 영역 또는 상기 제2 가이드 영역의 면적에 중첩되는 면적이 임계 면적으로 이상으로 식별되는 시점으로부터, 상기 드래그 입력이 종료되는 시간까지 걸리는 시간이 임계 시간 이상인지 여부에 기초하여, 상기 제4 사용자 입력을 상기 서버로 전송하는 단계; 를 포함하는, 방법.
제9항에 있어서, 상기 방법은,
상기 제1 그룹 식별자 영역에 대한 제3 사용자 입력의 발생이 소정의 시간 범위 내에 임계 횟수 이상 식별되는지 여부를 확인하는 단계; 및
상기 제3 사용자 입력의 발생이 소정의 시간 범위 내에 임계 횟수 이상 식별되는 것으로 확인되면, 상기 제3 사용자 입력이 발생된 영상 리소스를 대체할 수 있는 후보 영상들의 썸네일 이미지 및 상기 후보 영상들의 썸네일 이미지 상에 상기 영상 리소스와 동일한 타입의 리소스 그룹 식별자가 표시된 창이 출력되도록, 영상 리소스 변경에 관한 제5 사용자 입력을 상기 서버로 전송하는 단계; 를 포함하는, 방법.
멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 전자 장치에 있어서,
디스플레이;
네트워크 인터페이스;
하나 이상의 인스트럭션을 저장하는 메모리;
상기 하나 이상의 인스트럭션을 수행하는 적어도 하나의 프로세서; 를 포함하고,
상기 적어도 하나의 프로세서는
외부 디바이스로부터 복수의 문단들을 포함하는 프롬프트를 획득하고,
상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들을 상기 문맥의 순서에 따라 출력하고,
상기 출력된 문맥의 순서에 따라 상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력에 기초하여, 상기 영상 리소스들을 합성함으로써 생성된 렌더링 영상과, 상기 렌더링 영상의 생성에 사용된 영상 리소스들의 썸네일 이미지들 중, 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성함으로써 생성된, 멀티미디어 컨텐츠를 획득하고,
상기 대표 썸네일 이미지를 디스플레이 상에 출력함과 함께, 상기 대표 썸네일 이미지를 대신하여 변경 가능한 적어도 하나의 후보 썸네일 이미지들을 출력하는, 전자 장치.
전자 장치가 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 방법에 있어서,
외부 디바이스로부터 복수의 문단들을 포함하는 프롬프트를 획득하는 단계;
상기 획득된 프롬프트의 각 문단 별 문맥에 기초하여, 상기 문단 별로 매칭 가능한 영상 리소스들을 상기 문맥의 순서에 따라 출력하는 단계;
상기 출력된 문맥의 순서에 따라 상기 영상 리소스들의 합성 요청에 관한 제1 사용자 입력에 기초하여, 상기 영상 리소스들을 합성함으로써 생성된 렌더링 영상과, 상기 렌더링 영상의 생성에 사용된 영상 리소스들의 썸네일 이미지들 중, 상기 영상 리소스들의 사용자 조회 이력 정보에 기초하여 선택된 하나의 썸네일 이미지인 대표 썸네일 이미지를 합성함으로써 생성된, 멀티미디어 컨텐츠를 획득하는 단계; 및
상기 대표 썸네일 이미지를 디스플레이 상에 출력함과 함께, 상기 대표 썸네일 이미지를 대신하여 변경 가능한 적어도 하나의 후보 썸네일 이미지들을 출력하는 단계; 를 포함하는, 방법을 수행하도록 하는 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록 매체.