KR102265102B1

KR102265102B1 - 키네틱 타이포그래피가 적용된 자막에 대한 편집방법 및 그 전자장치

Info

Publication number: KR102265102B1
Application number: KR1020200007570A
Authority: KR
Inventors: 임순범; 전자연
Original assignee: 숙명여자대학교산학협력단
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2021-06-14
Also published as: WO2021149884A1

Abstract

키네틱 타이포그래피(kinetic typography)가 적용된 자막에 대한 편집방법이 제공된다. 자막 편집방법은 영상에 포함된 오브젝트의 타입을 판단하는 과정, 상기 영상에 대한 오디오에 기초하여 자막을 형성하는 과정, 상기 오브젝트의 타입 및 상기 자막에 기초하여, 상기 자막에 대한 키네틱 모션의 타입을 결정하는 과정, 상기 오브젝트의 타입 및 상기 자막에 기초하여, 상기 오디오가 상기 오브젝트에서 생성된 것인지 판단하는 과정, 상기 오디오가 상기 오브젝트에서 생성된 경우, 상기 오브젝트로부터 기설정된 거리 및 상기 영상 내에서의 상기 오브젝트의 위치에 기초하여 결정된 상기 오브젝트로부터의 일 방향에 위치하는 일 영역을 상기 자막의 위치로 결정하는 과정 및 상기 자막의 위치에 상기 키네틱 모션의 상기 타입이 적용된 자막을 디스플레이하는 과정을 포함할 수 있다.

Description

키네틱 타이포그래피가 적용된 자막에 대한 편집방법 및 그 전자장치{EDITING METHOD FOR SUBTITLE WITH KINETIC TYPOGRAPHY AND ELECTRONIC APPARATUS THEREOF}

본 발명은 키네틱 타이포그래피가 적용된 자막에 대한 편집방법 및 그 전자장치에 대한 것으로, 보다 상세하게는 자막의 다양한 모션을 제공하는 키네틱 타이포그래피가 적용된 자막에 대한 편집방법 및 그 전자장치에 대한 것이다.

최근, 기존의 멀티미디어 매체뿐만 아니라 SNS(social network service)가 대중화되면서 동영상 콘텐트의 제작 및 유통이 활발하다.

동영상 콘텐트는 기본적으로 영상과 오디오를 포함하는데, 콘텐트 이용자들의 이해를 돕고 흥미를 유발하기 위해 기본적인 영상 및 오디오 이외에 자막이 활용되고 있다. 자막은 영상에 등장하는 인물이나 오브젝트(object)의 행동, 움직임, 음성, 소리 등이 문자나 그래픽으로 처리되어 영상에 표시되는 것이 일반적이다.

자막을 제작하는 과정에는 시간과 노력이 소요된다. 영상 편집자는 편집 프로그램을 통해 동영상을 시청하면서 자막의 편집이나 완성된 자막의 수정을 진행한다. 여기서는, 영상 편집자가 일일이 해당 영상의 장면에 맞는 자막을 판단하고, 판단한 자막을 일일이 입력하여 편집을 수행하는 수동방식이 일반적으로 활용된다.

본 발명의 배경이 되는 기술의 예로, 대한민국공개특허 제2016-0079436호(2016.07.06.)는 멀티미디어 파일의 재생 정보에 대응하는 자막 파일에 대한 편집정보에 대응하여 편집 자막 파일을 수정하는 자막 컨텐트 서버의 자막 서비스 제공 방법을 개시한다.

본 발명의 배경이 되는 기술의 다른 예로, 대한민국공개특허 제10-2019-0138109호(2019.12.12.)는 방송 단말로부터 전송받은 오디오 파일에 포함된 음성을 인식하여 화자가 발화한 자막 텍스트를 추출하고, 일 시간 내의 상기 화자의 음성을 이용하여 음성 기준 정보를 생성하고, 상기 화자의 음성 및 상기 음성 기준 정보를 이용하여 상기 자막 텍스트의 화면 출력 제어 정보인 자막 스타일 정보를 생성하고, 상기 자막 텍스트 및 상기 자막 스타일 정보를 포함하는 자막 정보를 시청자 단말로 전송하는 자막 생성 방법 및 시스템을 개시한다.

일반적으로, 자막 편집은 자막의 위치 및 모션을 수동으로 지정해야 하기 때문에 매우 번거로운 작업이 동반되었다. 또한, 자막의 모션은 텍스트 박스 단위로 단조롭게 동작하여 시청자의 흥미를 유발하기 어려웠다.

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 자막의 위치 및 자막의 모션을 자동으로 지정 또는 추천하는데 그 목적이 있다. 또한, 자막에 포함된 복수의 단어, 복수의 글자, 복수의 낱자 중 적어도 하나가 서로 분리되어 개별적으로 모션을 수행하도록 자막을 제작 및 편집하는데 그 목적이 있다. 또한, 자막 모션의 템플릿 또는 자막 모션이 적용된 콘텐트의 템플릿을 라이브러리로 제공하는데 그 목적이 있다.

본 발명의 일 실시 예에 따른, 키네틱 타이포그래피(kinetic typography)가 적용된 자막에 대한 편집방법은, 영상에 포함된 오브젝트의 타입을 판단하는 과정, 상기 영상에 대한 오디오에 기초하여 자막을 형성하는 과정, 상기 오브젝트의 타입 및 상기 자막에 기초하여, 상기 자막에 대한 키네틱 모션의 타입을 결정하는 과정, 상기 오브젝트의 타입 및 상기 자막에 기초하여, 상기 오디오가 상기 오브젝트에서 생성된 것인지 판단하는 과정, 상기 오디오가 상기 오브젝트에서 생성된 경우, 상기 오브젝트로부터 기설정된 거리 및 상기 영상 내에서의 상기 오브젝트의 위치에 기초하여 결정된 상기 오브젝트로부터의 일 방향에 위치하는 일 영역을 상기 자막의 위치로 결정하는 과정 및 상기 자막의 위치에 상기 키네틱 모션의 상기 타입이 적용된 자막을 디스플레이하는 과정을 포함할 수 있다.

본 발명의 일 실시 예에 따른, 키네틱 타이포그래피가 적용된 자막의 편집을 위한 전자장치는, 저장부 및 영상에 포함된 오브젝트의 타입을 판단하고, 상기 영상에 대한 오디오에 기초하여 자막을 형성하고, 상기 오브젝트의 타입 및 상기 자막에 기초하여, 상기 자막에 대한 키네틱 모션의 타입을 결정하고, 상기 오브젝트의 타입 및 상기 자막에 기초하여, 상기 오디오가 상기 오브젝트에서 생성된 것인지 판단하고, 상기 오디오가 상기 오브젝트에서 생성된 경우, 상기 오브젝트로부터 기설정된 거리 및 상기 영상 내에서의 상기 오브젝트의 위치에 기초하여 결정된 상기 오브젝트로부터의 일 방향에 위치하는 일 영역을 상기 자막의 위치로 결정하고, 상기 자막의 위치에 상기 키네틱 모션의 상기 타입이 적용된 자막을 디스플레이하는 프로세서를 포함할 수 있다.

본 발명의 다양한 실시 예에 따르면, 자막의 위치 및 자막의 모션을 자동으로 지정 또는 추천할 수 있다.

본 발명의 다양한 실시 예에 따르면, 자막에 포함된 복수의 단어, 복수의 글자, 복수의 낱자 중 적어도 하나가 서로 분리되어 개별적으로 모션을 수행하도록 자막을 제작 및 편집할 수 있다.

본 발명의 다양한 실시 예에 따르면, 자막 모션의 템플릿 또는 자막 모션이 적용된 콘텐트의 템플릿을 라이브러리로 제공할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 자막편집 장치에 대한 예시도이다.
도 2는 본 발명의 일 실시 예에 따른 전자장치에 대한 블록도이다.
도 3a 내지 3e는 본 발명의 일 실시 예에 따른 자막을 도시한다.
도 4는 본 발명의 일 실시 예에 따른 자막 자동추천방법에 대한 예시도이다.
도 5는 본 발명의 일 실시 예에 따른 텍스트 박스 단위의 모션을 도시한다.
도 6은 본 발명의 일 실시 예에 따른 단어별 자막 모션을 도시한다.
도 7은 본 발명의 일 실시 예에 따른 낱자별 자막 모션을 도시한다.
도 8a 내지 도 8c는 본 발명의 일 실시 예에 따른 자막 모션을 도시한다.
도 9a 내지 도 9d는 본 발명의 다른 실시 예에 따른 자막 모션을 도시한다.
도10a 내지 도 10d는 본 발명의 또 다른 실시 예에 따른 자막 모션을 도시한다.
도 11a 내지 도 11d는 본 발명의 또 다른 실시 예에 따른 자막 모션을 도시한다.
도 12a 내지 도 12d는 본 발명의 또 다른 실시 예에 따른 자막 모션을 도시한다.
도 13a 내지 도 13e는 본 발명의 또 다른 실시 예에 따른 자막 모션을 도시한다.
14a 내지 14c는 본 발명의 일 실시 예에 따른 2D 공간의 자막 모션을 도시한다.
15a 내지 15c는 본 발명의 일 실시 예에 따른 3D 공간의 자막 모션을 도시한다.
도 16은 본 발명의 일 실시 예에 따른 전자장치의 세부 구성에 대한 블록도이다.
도 17은 본 발명의 일 실시 예에 따른 자막 편집 방법에 대한 흐름도이다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대한 동작원리를 상세히 설명한다. 또한, 발명에 대한 실시 예를 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 하기에서 사용되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로써, 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 사용된 용어들의 정의는 본 명세서 전반에 걸친 내용 및 이에 상응한 기능을 토대로 해석되어야 할 것이다.

도 1은 본 발명의 일 실시 예에 따른 자막편집 장치에 대한 예시도이다.

도 1을 참조하면, 자막편집 장치(1)는 기본모션 라이브러리(10), 자막모션 템플릿 편집기(20), 자막모션 템플릿 라이브러리(30), 비디오 자막 편집기(40) 및 SNS(50)의 순서로 수행될 수 있다. 여기서, 기본모션 라이브러리(10), 자막모션 템플릿 편집기(20), 자막모션 템플릿 라이브러리(30), 비디오 자막 편집기(40) 및 SNS(50)는 프로세서로 구동되는 소프트웨어 또는 모듈로 정의되거나, 개별 하드웨어로 정의될 수 있으며 이에 제한되지 않는다.

기본모션 라이브러리(10)는 자막의 기본 모션을 저장할 수 있다. 자막의 기본 모션의 예로는 상하좌우 직선이동 모션, 호 이동 모션, 원 이동 모션, 흔들림 모션, 상승 모션 등이 있다.

자막모션 템플릿 편집기(20)는 기본 모션 라이브러리(10)로부터 기본 모션 템플릿(21)을 전달받을 수 있다. 자막 모션 템플릿 편집기(20)는 키네틱 모션의 저작도구(22) 및 키네틱 타이포 엔진(23)을 이용하여 전달받은 기본 모션 템플릿(21)을 수정/변형/첨가하여 새로운 자막 모션 템플릿을 생성할 수 있다.

자막모션 템플릿 라이브러리(30)는 자막모션 템플릿 편집기(20)를 통해 전달받은 새로운 자막 모션 템플릿을 등록 또는 저장하여 라이브러리로 구축될 수 있다.

비디오 자막 편집기(40)는 비디오(또는 영상) 및 오디오를 편집할 수 있다(41, 42). 비디오 자막 편집기(40)는 STT(speech to text) 툴을 이용하여 편집된 비디오에 대한 오디오로부터 자막을 생성할 수 있다(43).

비디오 자막 편집기(40)는 자막 모션 템플릿 라이브러리(30)로부터 전달받거나 구매한 자막 모션 템플릿(44)에 기초하여 키네틱 자막을 추천할 수 있다. 이 경우, 비디오 자막 편집기(40)는 키네틱 자막의 위치 및 모션의 유형 중 적어도 하나를 추천할 수 있다.

비디오 자막 편집기(40)는 자막 모션 템플릿(44)과 추천된 키네틱 자막의 위치 및 모션을 참조하여 상기 생성된 자막을 편집할 수 있다.

SNS(social network service)(50)는 편집된 비디오 및 편집된 자막을 전달받아 게시할 수 있다. 여기서, 편집된 비디오 및 편집된 자막은 샘플 콘텐트 템플릿(46)에 저장되어 비디오 자막 편집기(40)의 자막 편집에 이용될 수 있다.

도 2는 본 발명의 일 실시 예에 따른 전자장치에 대한 블록도이다.

도 2를 참조하면, 키네틱 타이포그래피(kinetic typography)가 적용된 자막의 편집을 위한 전자장치(이하, 전자장치)(100)는 저장부(110) 및 프로세서(120)를 포함할 수 있다.

저장부(110)는 데이터를 저장한다. 예를 들면, 저장부(110)는 키네틱 타이포그래피가 적용된 자막을 저장할 수 있다. 이 경우, 저장부(110)는 자막의 기본모션 템플릿 라이브러리(10), 자막 모션 템플릿의 라이브러리(30)를 제공할 수 있다.

프로세서(120)는 전자장치(110)를 전반적으로 제어할 수 있다.

구체적으로, 프로세서(120)는 영상에 포함된 오브젝트의 타입을 판단할 수 있다. 여기서, 프로세서(120)는 딥러닝 알고리즘을 이용하여 오브젝트의 타입을 학습할 수 있다. 일 예로, 오브젝트의 타입은 자동차, 비행기, 사람의 얼굴, 사람의 눈, 코 입 등의 기관, 강아지, 새 등 다양한 유형일 수 있다.

프로세서(120)는 영상에 대한 오디오에 기초하여 자막을 생성할 수 있다. 일 예로, 프로세서(120)는 STT(speech to text) 툴을 이용하여 자막을 자동생성하여 저장부(110)에 저장할 수 있다.

프로세서(120)는 판단된 오브젝트의 타입 및 생성된 자막에 기초하여, 자막에 대한 키네틱 모션의 타입을 결정할 수 있다.

예를 들면, 프로세서(120)는 오브젝트의 타입 및 자막과, 키네틱 모션의 타입 간의 매칭관계를 포함하는 테이블을 저장부(110)에 저장할 수 있다.

일 예로, 상기 테이블에서, 오브젝트 타입이 '사람의 입'이고, 자막에 '사랑'이 포함되는 경우, 자막에 대한 키네틱 모션의 타입은 제1 타입으로 정의될 수 있다. 여기서, 제1 타입은 자막에 포함된 적어도 하나의 텍스트가 하트를 그리며 이동하는 키네틱 모션으로 정의될 수 있다.

다른 예로, 상기 테이블에서, 오브젝트의 타입이 '자동차'이고, 자막이 자동차 소리를 인식한 결과로 생성된 '싱싱'인 경우, 자막에 대한 키네틱 모션의 타입은 제2 타입으로 정의될 수 있다. 여기서, 제2 타입은 자막에 포함된 적어도 하나의 텍스트가 분리되어 바람이 불듯이 흩어지는 키네틱 모션으로 정의될 수 있다.

프로세서(120)는 오브젝트의 타입 및 자막에 기초하여, 오디오가 오브젝트에서 생성된 것인지 판단할 수 있다.

예를 들면, 프로세서(120)는 오브젝트의 타입에 매칭된 적어도 하나의 단어가 자막에 포함된 경우, 오디오는 오브젝트에서 생성된 것으로 판단할 수 있다. 이 경우, 프로세서(120)는 오브젝트 타입 및 단어 간의 매칭관계를 포함하는 테이블을 저장부(110)에 저장할 수 있다.

일 예로, 오브젝트 타입이 '강아지'이고 상기 '강아지'에 매칭된 단어가 '멍멍'이고, 오브젝트의 오디오로부터 생성된 자막에 '멍멍' 또는 '멍멍'과 유사한 단어가 포함된 경우, 상기 프로세서(120)는 오디오가 해당 오브젝트에서 생성된 것으로 판단할 수 있다.

다른 예로, 오브젝트 타입이 '아기'이고 상기 '아기'에 매칭된 단어가 '응애응애'이고, 오브젝트의 오디오로부터 생성된 자막에 '응애응애' 또는 '응애응애'와 유사한 단어가 포함된 경우, 상기 프로세서(120)는 오디오가 해당 오브젝트에서 생성된 것으로 판단할 수 있다.

상술한 본 발명의 다양한 실시 예에서, 오디오가 오브젝트에서 생성된 경우, 프로세서(120)는 오브젝트로부터 기설정된 거리 및 영상 내에서의 오브젝트의 위치에 기초하여 결정된 오브젝트로부터의 일 방향에 위치하는 일 영역을 자막의 위치로 결정할 수 있다.

여기서, 오브젝트로부터의 일 방향은 영상 내에서의 오브젝트의 주변의 영역 중 결정된 키네틱 타입이 적용된 자막을 디스플레이하는데 필요한 영역의 크기가 확보 가능한 영역에 대한 일 방향에 기초하여 결정될 수 있다. 즉, 상기 일 영역은 키네틱 타입이 적용된 자막이 디스플레이하는데 필요한 영역을 포함할 수 있는 크기로 결정될 수 있다.

본 발명의 일 실시 예에 따른 도 3a를 참조하면, 프로세서(120)는 영상에 포함된 오브젝트가 케익(301)임을 판단할 수 있다. 이 경우, 프로세서(120)는 영상에 포함된 일 영역을 자막(302)의 위치로 판단할 수 있다.

예를 들면, 프로세서(120)는 케익(301)으로부터 기설정된 거리에 있는 영역을 자막(302)의 후보 위치로 판단할 수 있다. 여기서, 기설정된 거리는 영상에서 차지하는 케익(301)의 크기 및 영상에서 차지하는 자막(302)의 크기에 기초하여 결정될 수 있다.

또한, 프로세서(120)는 영상 내에서의 케익(301)의 위치에 기초하여 결정된 케익(301)으로부터의 일 방향에 위치하는 일 영역을 자막의 위치로 결정할 수 있다.

일 예로, 프로세서(120)는 영상 내의 케익(301)의 위치가 영상의 중심(A)으로부터 일 방향으로 치우친 경우, 공간이 더 확보된 영상의 중심(A)으로부터 타 방향에 위치한 일 영역을 자막(302)의 위치로 결정할 수 있다. 다른 예로, 프로세서(120)는 영상 내의 케익(301)의 위치가 영상의 중심(B)으로부터 타 방향으로 치우친 경우, 영상의 중심(A)으로부터의 일 방향 또는 타 방향 중 하나에 위치한 일 영역을 자막(302)의 위치로 결정할 수 있다. 이는, 영상의 중심(A)로부터 양 방향(일 방향 및 타 방향)에 확보된 공간이 같거나 비슷하기 때문이다.

또한, 상기 영상 내에서의 오브젝트의 위치에 기초하여 결정된 오브젝트로부터의 일 방향에 위치하는 일 영역은 오브젝트의 이동 방향 및 오브젝트에서 생성된 오디오를 수용하는 후보 오브젝트의 위치에 더 기초하여 결정될 수 있다.

예를 들어, 프로서세(120)는 오브젝트의 이동 방향에 상기 일 영역이 위치하도록 할 수 있다. 일 예로 도 3a를 참조하면, 프로세서(120)는 케익(301)의 이동 방향에 자막(302)이 위치하도록 설정할 수 있다. 이 경우, 케익(301)의 이동 방향과 다른 방향에 위치한 영역(B)은 상기 일 영역의 위치 결정에서 후 순위로 설정될 수 있다.

또한, 프로세서(120)는 오브젝트에서 생성된 오디오를 수용하는 후보 오브젝트의 위치를 가리키는 방향과 근접하도록 상기 오브젝트로부터의 방향을 결정할 수 있다. 일 예로, 프로세서(120)는 오브젝트의 이동 방향과 가까우면서 오브젝트에서 생성된 오디오를 수용하는 후보 오브젝트의 위치를 가리키는 방향과 가까운 방향을 상기 오브젝트로부터의 일 방향으로 결정할 수 있다. 이로부터, 프로세서(120)는 오브젝트로부터의 일 방향에 위치하는 일 영역을 자막의 위치로 결정할 수 있다. 상술한 예에서, 상기 후보 오브젝트는 딥러닝 알고리즘을 이용한 학습을 통해 상기 오브젝트로부터의 오디오를 수용할 것으로 판단되는 오브젝트로 정의될 수 있다. 일 예로, 도 3a를 참조하면, 프로세서(120)는 케익(301)의 이동 방향에 위치하는 사람(C)을 후보 오브젝트(C)로 판단할 수 있다.

본 발명의 다른 실시 예에 따른 도 3b 및 도 3c를 참조하면, 프로세서(120)는 오브젝트의 타입 및 자막에 기초하여, 오디오가 오브젝트에서 생성된 것인지 판단할 수 있다.

도 3b를 참조하여 예를 들면, 프로세서(120)는 영상에 포함된 제1 오브젝트(303)를 사람으로 판단할 수 있다. 또한, 프로세서(120)는 제1 오브젝트(303)의 유형 및 오디오에 기초한 자막에 기초하여 발화자가 누구인지 판단할 수 있다.

여기서, 오디오가 제1 오브젝트(303)에서 생성된 경우, 프로세서(120)는 제1 오브젝트(303)로부터 기설정된 거리 및 영상 내에서의 제1 오브젝트(303)의 위치에 기초하여 결정된 제1 오브젝트(303)로부터의 일 방향에 위치하는 일 영역(305)을 자막(305)의 위치로 결정할 수 있다. 일 예로, 프로세서(120)는 제1 오브젝트(303)의 얼굴(또는 입)로부터 기설정된 거리 및 제1 오브젝트(303)로부터의 일 방향에 위치하는 일 영역(305)을 자막(305)의 위치로 결정할 수 있다.

다른 예로, 도 3c를 참조하면, 프로세서(120)는 영상에 포함된 제2 오브젝트(304)를 사람으로 판단할 수 있다. 또한, 프로세서(120)는 제2 오브젝트(304)의 모션 및 오디오에 기초하여 발화자가 누구인지 판단할 수 있다.

여기서, 오디오가 제2 오브젝트(304)에서 생성된 경우, 프로세서(120)는 제2 오브젝트(304)로부터 기설정된 거리 및 영상 내에서의 제2 오브젝트(304)의 위치에 기초하여 결정된 제2 오브젝트(304)로부터의 일 방향에 위치하는 일 영역(306)을 자막(306)의 위치로 결정할 수 있다. 일 예로, 프로세서(120)는 제2 오브젝트(304)의 얼굴(또는 입)로부터 기설정된 거리 및 제2 오브젝트(304)로부터의 일 방향에 위치하는 일 영역(306)을 자막(306)의 위치로 결정할 수 있다.

또한, 본 발명의 다른 실시 예에 따른 도 3d 및 도 3e를 참조하면, 프로세서(120)는 오브젝트의 타입 및 자막에 기초하여, 오디오가 오브젝트에서 생성된 것인지 판단할 수 있다.

도 3d를 참조하여 예를 들면, 프로세서(120)는 영상에 포함된 제3 오브젝트(307)를 기차(307)로 판단할 수 있다. 또한, 프로세서(120)는 제3 오브젝트(307)의 유형 및 오디오에 기초한 자막에 기초하여 오디오가 기차(307)에 의해 생성되었는지 판단할 수 있다.

여기서, 오디오가 기차(307)에서 생성된 경우, 프로세서(120)는 기차(307)로부터 기설정된 거리 및 영상 내에서의 기차(307)의 위치에 기초하여 결정된 기차(307)로부터의 일 방향에 위치하는 일 영역(308)을 자막(308)의 위치로 결정할 수 있다.

도 3e를 참조하여 예를 들면, 프로세서(120)는 영상에 포함된 제4 오브젝트(309)를 손(309)으로, 제5 오브젝트(310)를 초인종(310)으로 판단할 수 있다. 또한, 프로세서(120)는 제4 오브젝트(309) 및 제5 오브젝트(310)의 유형 및 오디오에 기초한 자막에 기초하여 오디오가 손(309) 및 초인종(310)에 의해 생성되었는지 판단할 수 있다.

여기서, 오디오가 손(309) 및 초인종(310)에서 생성된 경우, 프로세서(120)는 오디오가 손(309) 및 초인종(310)으로부터 기설정된 거리 및 영상 내에서의 오디오가 손(309) 및 초인종(310)의 위치에 기초하여 결정된 손(309) 및 초인종(310)으로부터의 일 방향에 위치하는 일 영역(311)을 자막(311)의 위치로 결정할 수 있다.

상술한 본 발명의 다양한 실시 예에 따라, 프로세서(120)는 자막의 위치에 키네틱 모션의 타입이 적용된 자막을 디스플레이할 수 있다.

상술한 본 발명의 다양한 실시 예에 따르면, 프로세서(120)는 자막의 위치 및 자막의 모션을 자동으로 지정 또는 추천할 수 있다.

도 4는 본 발명의 일 실시 예에 따른 자막 자동추천방법에 대한 예시도이다.

도 4를 참조하면, 프로세서(120)는 동영상 분석 엔진(402)을 이용하여 비디오(또는 영상)를 분석하여 비디오 클립을 생성할 수 있다. 또한, 프로세서(120)는 대사 자동 생성 엔진(STT 자동 생성)을 이용하여 비디오/오디오를 분석하여 자막을 생성(406)할 수 있다.

프로세서(120)는 자막 모션 템플릿(407)을 참조하여 키네틱 자막에 대한 위치 및 모션을 추천할 수 있다(408). 또한, 프로세서(120)는 키네틱 자막 모션을 편집할 수 있다(409).

한편, 기존의 자막 편집기는 텍스트 박스(또는 문장 블록) 단위의 자막 처리만 가능하여 사용자로 하여금 흥미를 유발하기 어려웠다. 도 5는 기존의 자막 편집기에서 제공하는 텍스트 박스 단위의 모션을 도시한다.

본 발명의 일 실시 예에 따른 도 6을 참조하면, 자막은 단어(word) 또는 글자(character) 단위로 분리(또는 분절)되어 개별적으로 모션을 수행할 수 있다.

본 발명의 다른 실시 예에 따른 도 7을 참조하면, 자막은 낱자(letter)(또는 자소) 단위로 분리(또는 분절)되어 개별적으로 모션을 취할 수 있다.

이하 도 8a 내지 15c를 참조하여, 단어, 글자, 낱자 중 하나의 단위로 분리되어 모션을 수행하는 자막의 다양한 실시 예에 대하여 상세히 설명한다.

도 8a 내지 도 8c는 본 발명의 일 실시 예에 따른 자막 모션을 도시한다.

도 8a는 자막 '폰트날다'(801)가 모션을 시작하는 상태를 도시한다. 도 8b에서는, '폰트날다'(801)가 '폰트날다'(801)의 좌측이 '폰트날다'(801)의 우측보다 점차 위로 기울어지면서 박스 좌측 영역으로 이동한다. 도 8c는 '폰트날다'(801)가 박스의 좌측 상단 영역으로 이동하여 모션을 종료하는 상태를 도시한다.

도 9a 내지 도 9d는 본 발명의 다른 실시 예에 따른 자막 모션을 도시한다.

도 9a는 자막 '폰트날다'(901, 902)가 '폰트'(제1 단어)(901) 및 '날다'(제2 단어)(902)로 분리되어 모션을 시작하는 상태를 도시한다. 여기서, '폰트'(901)의 위치를 제1 위치로, '날다'(902)의 위치를 제3 위치로 정의한다.

도 9b는 '폰트'(901)가 제1 키네틱 모션으로 제1 위치에서 박스 좌측으로 이동하고, '날다'(902)가 제1 키네틱 모션으로 제3 위치에서 박스 좌측으로 이동한 상태를 도시한다. 도 9b에서의 '폰트'(901) 및 '날다'(902) 간의 거리는 도 9a에서의 '폰트'(901) 및 '날다'(902) 간의 거리보다 좁다.

도 9c는 '폰트'(901) 및 '날다'(902)는 제1 키네틱 모션으로 박스의 좌측으로 이동하면서 기울어진 상태를 도시한다.

도 9d에서, '폰트'(901) 및 '날다'(902)는 제2 위치(903의 좌측) 및 제4 위치(903의 우측)에서 서로 정렬된다. 이 경우, '폰트'(901) 및 '날다'(902)는 하나의 박스(903)의 통합된 상태로 디스플레이될 수 있다.

도 9a 내지 9d에서, '폰트'(901)는 제1 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다. 또한, '날다'(902)는 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각으로부터 기설정된 시간이 지연된 제4 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

도 10a 내지 도 10d는 본 발명의 또 다른 실시 예에 따른 자막 모션을 도시한다.

도 10a는 자막 '폰트날다'(1001, 1002, 1003, 1004)가 '폰'(제1 단어)(1001), '트'(제2 단어)(1002), '날'(제3 단어)(1003) 및 '다'(제4 단어)(1004)로 분리되어 모션을 시작하는 상태를 도시한다.

이하에서, 설명의 편의를 위해 '폰'(1001), '트'(1002), '날'(1003) 및 '다'(1004) 중 '폰'(1001) 및 '트'(1002)의 모션에 대해 설명하는 부분이 있을 것이나, 이러한 모션에 대한 설명은 '폰'(1001), '트'(1002), '날'(1003) 및 '다'(1004) 서로 간에 적용 가능할 것이다. 또한, '폰'(1001)의 위치를 제1 위치로, '트'(1002)의 위치를 제3 위치로 정의한다.

도 10b는 '폰'(1001)이 제1 키네틱 모션으로 제1 위치에서 박스 좌측으로 이동하고, '트'(1002)가 제1 키네틱 모션으로 제3 위치에서 박스 좌측으로 이동한 상태를 도시한다. 도 10b에서의 '폰'(1001) 및 '트'(1002) 간의 거리는 도 10a에서의 '폰'(1001) 및 '트'(1002) 간의 거리보다 좁다.

도 10c는 '폰'(1001), '트'(1002), '날'(1003) 및 '다'(1004)는 제1 키네틱 모션으로 박스의 좌측으로 이동하면서 기울어진 상태를 도시한다.

도 10d에서, '폰'(1001) 및 '트'(1002)는 제2 위치(105의 맨 좌측) 및 제4 위치(105의 맨 좌측 다음)에서 서로 정렬된다. 이 경우, '폰'(1001), '트'(1002), '날'(1003) 및 '다'(1004)는 하나의 박스(105로 통합된 상태로 디스플레이될 수 있다.

도 10a 내지 10d에서, '폰'(1001)은 제1 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다. 또한, '트'(1002)는 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각으로부터 기설정된 시간이 지연된 제4 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

도 11a 내지 도 11d는 본 발명의 또 다른 실시 예에 따른 자막 모션을 도시한다.

도 11a는 자막 '키네틱 타이포'(1101)가 모션을 시작하는 상태를 도시한다. 도 11b에서는, '키네틱 타이포'(1101)가 '키네틱 타이포'(1101)의 좌측이 '키네틱 타이포'(1101)의 우측보다 점차 위로 기울어지면서 시계 방향으로 회전한다. 도 11c는 '키네틱 타이포'(1101)가 시계 방향으로 연속적으로 회전하는 상태를 도시한다. 도 11d는 '키네틱 타이포'(1101)가 모션을 종료하는 상태를 도시한다.

도 12a 내지 도 12d는 본 발명의 또 다른 실시 예에 따른 자막 모션을 도시한다.

도 12a는 자막 '키네틱 타이포'(1201)가 모션을 시작하는 상태를 도시한다.

도 12b는 '키네틱 타이포'(1201)가 '키네틱'(제1 단어)(1202) 및 '타이포'(제2 단어)(1203)로 분리되어 회전 모션을 수행하여 시계 방향으로 회전한 상태를 도시한다. 구체적으로, 도 12b는 '키네틱'(1202)이 제1 키네틱 모션으로 제1 각도만큼 회전하고, '타이포'(1203)가 제1 키네틱 모션으로 제1 각도만큼 회전한 상태를 도시한다.

도 12c는 '키네틱'(1202)이 제1 키네틱 모션으로 제2 각도만큼 회전하고, '타이포'(1203)가 제1 키네틱 모션으로 제2 각도만큼 회전한 상태를 도시한다.

도 12d는 '키네틱'(1202) 및 '타이포'(1203)가 정렬된 상태를 도시한다. 이 경우, '키네틱'(1202) 및 '타이포'(1203)는 하나의 박스(1204)의 통합된 상태로 디스플레이될 수 있다.

도 12a 내지 12d에서, '키네틱'(1202)은 제1 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다. 또한, '타이포'(1203)는 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각으로부터 기설정된 시간이 지연된 제4 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

도 13a 내지 도 13e는 본 발명의 또 다른 실시 예에 따른 자막 모션을 도시한다.

도 13a는 자막 '키네틱 타이포'(1301)가 모션을 시작하는 상태를 도시한다.

도 13b는 '키네틱 타이포'(1301)가 '키'(1302), '네'(1303), '틱'(1304), '타'(1305), '이'(1306) 및 '포'(1307)로 분리되어 회전 모션을 개별적으로 수행하여 시계 방향으로 회전한 상태를 도시한다. 구체적으로, 도 13b는 '키'(1302)가 제1 키네틱 모션으로 시계 방향으로 제1 각도만큼 회전하고, '네'(1303)가 제1 키네틱 모션으로 시계 방향으로 제1 각도만큼 회전하고, '틱'(1304)이 제1 키네틱 모션으로 시계 방향으로 제1 각도만큼 회전하고, '타'(1305)가 제1 키네틱 모션으로 시계 방향으로 제1 각도만큼 회전하고, '이'(1306)가 제1 키네틱 모션으로 시계 방향으로 제1 각도만큼 회전하고, '포'(1307)가 제1 키네틱 모션으로 시계 방향으로 제1 각도만큼 회전한 상태를 도시한다.

도 13c는 '키'(1302)가 제1 키네틱 모션으로 시계 방향으로 제2 각도만큼 회전하고, '네'(1303)가 제1 키네틱 모션으로 시계 방향으로 제2 각도만큼 회전하고, '틱'(1304)이 제1 키네틱 모션으로 시계 방향으로 제2 각도만큼 회전하고, '타'(1305)가 제1 키네틱 모션으로 시계 방향으로 제2 각도만큼 회전하고, '이'(1306)가 제1 키네틱 모션으로 시계 방향으로 제2 각도만큼 회전하고, '포'(1307)가 제1 키네틱 모션으로 시계 방향으로 제2 각도만큼 회전한 상태를 도시한다.

도 13d는 '키'(1302)가 제1 키네틱 모션으로 시계 방향으로 제3 각도만큼 회전하고, '네'(1303)가 제1 키네틱 모션으로 시계 방향으로 제3 각도만큼 회전하고, '틱'(1304)이 제1 키네틱 모션으로 시계 방향으로 제3 각도만큼 회전하고, '타'(1305)가 제1 키네틱 모션으로 시계 방향으로 제3 각도만큼 회전하고, '이'(1306)가 제1 키네틱 모션으로 시계 방향으로 제3 각도만큼 회전하고, '포'(1307)가 제1 키네틱 모션으로 시계 방향으로 제3 각도만큼 회전한 상태를 도시한다.

도 13e는 '키'(1302), '네'(1303), '틱'(1304), '타'(1305), '이'(1306) 및 '포'(1307)가 정렬된 상태를 도시한다. 이 경우, '키'(1302), '네'(1303), '틱'(1304), '타'(1305), '이'(1306) 및 '포'(1307)는 하나의 박스(1308)의 통합된 상태로 디스플레이될 수 있다.

도 13a 내지 13e에서, '키'(1302)는 제1 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

또한, '네'(1303)는 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각으로부터 기설정된 시간이 지연된 제4 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

또한, '틱'(1304)은 제3 시각으로부터 기설정된 시간이 지연된 제5 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제4 시각으로부터 기설정된 시간이 지연된 제6 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

또한, '타'(1305)는 제5 시각으로부터 기설정된 시간이 지연된 제7 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제6 시각으로부터 기설정된 시간이 지연된 제8 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

또한, '이'(1306)는 제7 시각으로부터 기설정된 시간이 지연된 제9 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제8 시각으로부터 기설정된 시간이 지연된 제10 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

또한, '포'(1307)는 제9 시각으로부터 기설정된 시간이 지연된 제11 시각에 제1 키네틱 모션에 따른 동작을 시작하고, 제10 시각으로부터 기설정된 시간이 지연된 제12 시각에 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

상술한 본 발명의 다양한 실시 예에 따르면, 자막에 포함된 복수의 단어, 복수의 글자, 복수의 낱자 중 적어도 하나가 서로 분리되어 개별적으로 모션을 수행하도록 자막을 제작 및 편집할 수 있다. 또한, 본 발명의 다양한 실시 예에 따르면, 자막 모션의 템플릿 또는 자막 모션이 적용된 콘텐트의 템플릿을 라이브러리로 제공할 수 있다.

14a 내지 14c는 본 발명의 일 실시 예에 따른 2D 공간의 자막 모션을 도시한다.

도 14a는 구(또는 문장) 단위의 2D 자막 모션을 도시한다. 예를 들면, 구 '키네틱타이포'는 제1 위치(1401)에서 제2 위치(1402)로 곡선 이동한다.

도 14b는 단어 단위의 2D 자막 모션을 도시한다. 예를 들면, 단어 '키네틱' 및 '타이포'는 제3 위치(1403, 1404)에서 제4 위치(1405, 1406)로 곡선 이동한다.

도 14c는 글자 단위의 2D 자막 모션을 도시한다. 예를 들면, 글자 '키', '네', '틱', '타', '이' '포'는 제5 위치(1407 내지 1412)에서 제6 위치(1413 내지 1418)로 곡선 이동한다.

15a 내지 15c는 본 발명의 일 실시 예에 따른 3D 공간의 자막 모션을 도시한다.

도 15a는 구(또는 문장) 단위의 3D 자막 모션을 도시한다. 예를 들면, 구 '키네틱타이포'는 제7 위치(1501)에서 제8 위치(1502)로 곡선 이동한다. 이 경우, 구 '키네틱타이포'는 곡선 경로를 따라 이동하면서 텍스트가 정면을 바라볼 수 있다.

도 15b는단어 단위의 3D 자막 모션을 도시한다. 예를 들면, 단어 '키네틱' 및 '타이포'는 제8 위치(1503, 1504)에서 제9 위치(1505, 1506)로 곡선 이동한다. 이 경우, 단어 '키네틱' 및 '타이포'는 곡선 경로를 따라 이동하면서 텍스트가 정면을 바라볼 수 있다.

도 15c는 글자 단위의 3D 자막 모션을 도시한다. 예를 들면, 글자 '키', '네', '틱', '타', '이' '포'는 제10 위치(1507 내지 1512)에서 제11 위치(1513, 1518)로 곡선 이동한다. 이 경우, 글자 '키', '네', '틱', '타', '이' '포'는 곡선 경로를 따라 이동하면서 텍스트가 정면을 바라볼 수 있다.

도 16은 본 발명의 일 실시 예에 따른 전자장치의 세부 구성에 대한 블록도이다.

도 16을 참조하면, 전자장치(1600)는 통신부(1610), 저장부(1620) 및 프로세서(1630)를 포함한다.

통신부(1610)는 통신을 수행한다. 통신부(1610)는 BT(BlueTooth), WI-FI(Wireless Fidelity), Zigbee, IR(Infrared), NFC(Near Field Communication) 등과 같은 다양한 통신 방식을 통해 외부 기기와 통신을 수행할 수 있다.

저장부(1620)는 전자장치(1600)을 구동시키기 위한 O/S(Operating System) 소프트웨어 모듈, 디스플레이 영역에서 제공되는 다양한 UI 화면을 구성하기 위한 데이터 등을 저장할 수 있다. 또한, 저장부(1620)는 읽고 쓰기가 가능하다.

프로세서(1630)는 저장부(1630)에 저장된 각종 프로그램을 이용하여 전자장치(1600)의 동작을 전반적으로 제어한다.

구체적으로, 프로세서(1630)는 RAM(1631), ROM(1632), 메인 CPU(1633), 그래픽 처리부(1634), 제1 내지 n 인터페이스(1635-1 ~ 1635-n) 및 버스(1636)를 포함한다.

RAM(1631), ROM(1632), 메인 CPU(1633), 그래픽 처리부(1634), 제1 내지 n 인터페이스(1635-1 ~ 1635-n) 등은 버스(1636)를 통해 서로 연결될 수 있다.

제1 내지 n 인터페이스(1635-1 내지 1635-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.

ROM(1632)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴온 명령이 입력되어 전원이 공급되면, 메인 CPU(1633)는 ROM(1632)에 저장된 명령어에 따라 저장부(1620)에 저장된 O/S를 RAM(1631)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU(1633)는 저장된 각종 어플리케이션 프로그램을 RAM(1631)에 복사하고, RAM(1631)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.

메인 CPU(1633)는 저장부(1620)에 액세스하여, 저장부(1620)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메인 CPU(1633)는 저장부(1620)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.

그래픽 처리부(1634)는 연산부 및 렌더링부를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다.

도 17은 본 발명의 일 실시 예에 따른 자막 편집 방법에 대한 흐름도이다.

도 17을 참조하면, 키네틱 타이포그래피가 적용된 자막에 대한 편집방법은, 영상에 포함된 오브젝트의 타입을 판단하는 과정(1710), 상기 영상에 대한 오디오에 기초하여 자막을 생성하는 과정(1720), 상기 오브젝트의 타입 및 상기 자막에 기초하여, 상기 자막에 대한 키네틱 모션의 타입을 결정하는 과정(1730), 상기 오브젝트의 타입 및 상기 자막에 기초하여, 상기 오디오가 상기 오브젝트에서 생성된 것인지 판단하는 과정(1740), 상기 오디오가 상기 오브젝트에서 생성된 경우, 상기 오브젝트로부터 기설정된 거리 및 상기 영상 내에서의 상기 오브젝트의 위치에 기초하여 결정된 상기 오브젝트로부터의 일 방향에 위치하는 일 영역을 상기 자막의 위치로 결정하는 과정(1750), 상기 자막의 위치에 상기 키네틱 모션의 상기 타입이 적용된 자막을 디스플레이하는 과정(1760)을 포함할 수 있다.

이 경우, 상기 오브젝트의 타입에 매칭된 적어도 하나의 단어가 상기 자막에 포함된 경우, 상기 오디오는 상기 오브젝트에서 생성된 것으로 판단될 수 있다.

일 예로, 상기 오브젝트로부터의 일 방향에 위치하는 상기 일 영역은, 상기 영상 내에서의 상기 오브젝트의 주변의 영역 중 상기 결정된 키네틱 타입이 적용된 상기 자막을 디스플레이하는데 필요한 영역의 크기가 확보 가능한 영역에 대한 방향에 더 기초하여 결정될 수 있다.

여기서, 상기 오브젝트로부터의 일 방향에 위치하는 상기 일 영역은, 상기 오브젝트의 이동 방향 및 상기 오브젝트에서 생성된 오디오를 수용하는 후보 오브젝트의 위치에 더 기초하여 결정될 수 있다.

상술한 자막 편집방법에서 일 예로, 상기 자막에 포함된 복수의 단어 중 제1 단어는 제1 키네틱 모션으로 제1 위치에서 제2 위치로 이동하고, 상기 자막에 포함된 복수의 단어 중 제2 단어는 상기 제1 키네틱 모션으로 제3 위치에서 제4 위치로 이동하고, 상기 제1 단어 및 상기 제2 단어는, 상기 제2 위치 및 상기 제4 위치에서 서로 정렬될 수 있다.

이 경우, 상기 제1 단어는, 제1 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하고, 상기 제2 단어는, 상기 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 상기 제2 시각으로부터 상기 기설정된 시간이 지연된 제4 시각에 상기 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

다른 예로, 상기 자막에 포함된 복수의 글자(character) 중 제1 글자는 제1 키네틱 모션으로 제1 위치에서 제2 위치로 이동하고, 상기 자막에 포함된 복수의 글자 중 제2 글자는 상기 제1 키네틱 모션으로 제3 위치에서 제4 위치로 이동하고, 상기 제1 글자 및 상기 제2 글자는, 상기 제2 위치 및 상기 제4 위치에서 서로 정렬될 수 있다.

이 경우, 상기 제1 글자는, 제1 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하고, 상기 제2 글자는, 상기 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 상기 제2 시각으로부터 상기 기설정된 시간이 지연된 제4 시각에 상기 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

또 다른 예로, 상기 자막에 포함된 복수의 낱자(letter) 중 제1 낱자는 제1 키네틱 모션으로 제1 위치에서 제2 위치로 이동하고, 상기 자막에 포함된 복수의 낱자 중 제2 낱자는 상기 제1 키네틱 모션으로 제3 위치에서 제4 위치로 이동하고, 상기 제1 낱자 및 상기 제2 낱자는, 상기 제2 위치 및 상기 제4 위치에서 서로 정렬될 수 있다.

이 경우, 상기 제1 낱자는, 제1 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하고, 상기 제2 낱자는, 상기 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 상기 제2 시각으로부터 상기 기설정된 시간이 지연된 제4 시각에 상기 제1 키네틱 모션에 따른 동작을 종료할 수 있다.

한편, 상술한 본 발명의 다양한 실시 예들에 따른 자막 편집방법은, 은 컴퓨터로 실행 가능한 프로그램 코드로 구현되어 다양한 비 일시적 판독 가능 매체(non-transitory computer readable medium)에 저장된 상태로 프로세서에 의해 실행되도록 각 서버 또는 기기들에 제공될 수 있다.

일 예로, 상술한 자막 편집방법은, 영상에 포함된 오브젝트의 타입을 판단하는 과정, 상기 영상에 대한 오디오에 기초하여 자막을 생성하는 과정, 상기 오브젝트의 타입 및 상기 자막에 기초하여, 상기 자막에 대한 키네틱 모션의 타입을 결정하는 과정, 상기 오브젝트의 타입 및 상기 자막에 기초하여, 상기 오디오가 상기 오브젝트에서 생성된 것인지 판단하는 과정, 상기 오디오가 상기 오브젝트에서 생성된 경우, 상기 오브젝트로부터 기설정된 거리 및 상기 영상 내에서의 상기 오브젝트의 위치에 기초하여 결정된 상기 오브젝트로부터의 일 방향에 위치하는 일 영역을 상기 자막의 위치로 결정하는 과정, 상기 자막의 위치에 상기 키네틱 모션의 상기 타입이 적용된 자막을 디스플레이하는 과정을 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.

비 일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

이상으로, 본 발명의 실시 예들이 도시되고 설명되었지만, 당업자는 첨부된 청구항들 및 그에 동등한 것들에 의해 정의되는 바와 같은 본 실시 예의 사상 및 범위를 벗어나지 않고 형태 및 세부 사항들에 있어 다양한 변경이 이루어질 수 있음을 이해할 것이다.

자막편집 장치 1, 100
저장부: 110
프로세서: 120, 1630
통신부: 1610
저장부: 1620

Claims

키네틱 타이포그래피(kinetic typography)가 적용된 자막에 대한 편집방법에 있어서,
영상에 포함된 오브젝트의 타입을 판단하는 과정;
상기 영상에 대한 오디오에 기초하여 자막을 생성하는 과정;
상기 오브젝트의 타입, 상기 오브젝트의 타입에 매칭된 적어도 하나의 단어 및 적어도 하나의 키네틱 모션의 타입의 매칭관계를 나타내는 테이블에 기초하여, 상기 자막에 대한 키네틱 모션의 타입을 결정하는 과정;
상기 오브젝트의 타입에 매칭된 상기 적어도 하나의 단어가 상기 자막에 포함된 경우, 상기 오디오가 상기 오브젝트에서 생성된 것으로 판단하는 과정;
상기 오디오가 상기 오브젝트에서 생성된 경우, 상기 오브젝트로부터 기설정된 거리 및 상기 영상 내에서의 상기 오브젝트의 위치에 기초하여 결정된 상기 오브젝트로부터의 일 방향에 위치하는 일 영역을 상기 자막의 위치로 결정하는 과정; 및
상기 자막의 위치에 상기 키네틱 모션의 상기 타입이 적용된 자막을 디스플레이하는 과정;을 포함하는, 자막 편집방법.
삭제
제1항에 있어서,
상기 오브젝트로부터의 상기 일 방향에 위치하는 상기 일 영역은,
상기 영상 내에서의 상기 오브젝트의 주변의 영역 중 상기 결정된 키네틱 타입이 적용된 상기 자막을 디스플레이하는데 필요한 영역의 크기가 확보 가능한 영역에 대한 방향에 더 기초하여 결정되는, 자막 편집방법.
제3항에 있어서,
상기 오브젝트로부터의 상기 일 방향에 위치하는 상기 일 영역은,
상기 오브젝트의 이동 방향 및 상기 오브젝트에서 생성된 오디오를 수용하는 후보 오브젝트의 위치에 더 기초하여 결정되는, 자막 편집방법.
제1항에 있어서,
상기 자막에 포함된 복수의 단어 중 제1 단어는 제1 키네틱 모션으로 제1 위치에서 제2 위치로 이동하고, 상기 자막에 포함된 복수의 단어 중 제2 단어는 상기 제1 키네틱 모션으로 제3 위치에서 제4 위치로 이동하고,
상기 제1 단어 및 상기 제2 단어는, 상기 제2 위치 및 상기 제4 위치에서 서로 정렬되는, 자막 편집방법.
제5항에 있어서,
상기 제1 단어는,
제1 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하고,
상기 제2 단어는,
상기 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 상기 제2 시각으로부터 상기 기설정된 시간이 지연된 제4 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하는, 자막 편집방법.
제1항에 있어서,
상기 자막에 포함된 복수의 글자(character) 중 제1 글자는 제1 키네틱 모션으로 제1 위치에서 제2 위치로 이동하고, 상기 자막에 포함된 복수의 글자 중 제2 글자는 상기 제1 키네틱 모션으로 제3 위치에서 제4 위치로 이동하고,
상기 제1 글자 및 상기 제2 글자는, 상기 제2 위치 및 상기 제4 위치에서 서로 정렬되는, 자막 편집방법.
제7항에 있어서,
상기 제1 글자는, 제1 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하고,
상기 제2 글자는, 상기 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 상기 제2 시각으로부터 상기 기설정된 시간이 지연된 제4 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하는, 자막 편집방법.
제1항에 있어서,
상기 자막에 포함된 복수의 낱자(letter) 중 제1 낱자는 제1 키네틱 모션으로 제1 위치에서 제2 위치로 이동하고, 상기 자막에 포함된 복수의 낱자 중 제2 낱자는 상기 제1 키네틱 모션으로 제3 위치에서 제4 위치로 이동하고,
상기 제1 낱자 및 상기 제2 낱자는, 상기 제2 위치 및 상기 제4 위치에서 서로 정렬되는, 자막 편집방법.
제9항에 있어서,
상기 제1 낱자는, 제1 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하고,
상기 제2 낱자는, 상기 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 상기 제2 시각으로부터 상기 기설정된 시간이 지연된 제4 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하는, 자막 편집방법.
키네틱 타이포그래피(kinetic typography)가 적용된 자막의 편집을 위한 전자장치에 있어서,
저장부; 및
영상에 포함된 오브젝트의 타입을 판단하고,
상기 영상에 대한 오디오에 기초하여 자막을 생성하고,
상기 오브젝트의 타입, 상기 오브젝트의 타입에 매칭된 적어도 하나의 단어 및 적어도 하나의 키네틱 모션의 타입의 매칭관계를 나타내는 테이블에 기초하여, 상기 자막에 대한 키네틱 모션의 타입을 결정하고,
상기 오브젝트의 타입에 매칭된 상기 적어도 하나의 단어가 상기 자막에 포함된 경우, 상기 오디오가 상기 오브젝트에서 생성된 것으로 판단하고,
상기 오디오가 상기 오브젝트에서 생성된 경우, 상기 오브젝트로부터 기설정된 거리 및 상기 영상 내에서의 상기 오브젝트의 위치에 기초하여 결정된 상기 오브젝트로부터의 일 방향에 위치하는 일 영역을 상기 자막의 위치로 결정하고,
상기 자막의 위치에 상기 키네틱 모션의 상기 타입이 적용된 자막을 디스플레이하는 프로세서;를 포함하는, 전자장치.
삭제
제11항에 있어서,
상기 오브젝트로부터의 일 방향에 위치하는 상기 일 영역은,
상기 영상 내에서의 상기 오브젝트의 주변의 영역 중 상기 결정된 키네틱 타입이 적용된 상기 자막을 디스플레이하는데 필요한 영역의 크기가 확보 가능한 영역에 대한 방향에 더 기초하여 결정되는, 전자장치.
제13항에 있어서,
상기 오브젝트로부터의 일 방향에 위치하는 상기 일 영역은,
상기 오브젝트의 이동 방향 및 상기 오브젝트에서 생성된 오디오를 수용하는 후보 오브젝트의 위치에 더 기초하여 결정되는, 전자장치.
제11항에 있어서,
상기 자막에 포함된 복수의 단어 중 제1 단어는 제1 키네틱 모션으로 제1 위치에서 제2 위치로 이동하고, 상기 자막에 포함된 복수의 단어 중 제2 단어는 상기 제1 키네틱 모션으로 제3 위치에서 제4 위치로 이동하고,
상기 제1 단어 및 상기 제2 단어는, 상기 제2 위치 및 상기 제4 위치에서 서로 정렬되는, 전자장치.
제15항에 있어서,
상기 제1 단어는,
제1 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하고,
상기 제2 단어는,
상기 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 상기 제2 시각으로부터 상기 기설정된 시간이 지연된 제4 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하는, 전자장치.
제11항에 있어서,
상기 자막에 포함된 복수의 글자(character) 중 제1 글자는 제1 키네틱 모션으로 제1 위치에서 제2 위치로 이동하고, 상기 자막에 포함된 복수의 글자 중 제2 글자는 상기 제1 키네틱 모션으로 제3 위치에서 제4 위치로 이동하고,
상기 제1 글자 및 상기 제2 글자는, 상기 제2 위치 및 상기 제4 위치에서 서로 정렬되는, 전자장치.
제17항에 있어서,
상기 제1 글자는, 제1 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하고,
상기 제2 글자는, 상기 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 상기 제2 시각으로부터 상기 기설정된 시간이 지연된 제4 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하는, 전자장치.
제11항에 있어서,
상기 자막에 포함된 복수의 낱자(letter) 중 제1 낱자는 제1 키네틱 모션으로 제1 위치에서 제2 위치로 이동하고, 상기 자막에 포함된 복수의 낱자 중 제2 낱자는 상기 제1 키네틱 모션으로 제3 위치에서 제4 위치로 이동하고,
상기 제1 낱자 및 상기 제2 낱자는, 상기 제2 위치 및 상기 제4 위치에서 서로 정렬되는, 전자장치.
제19항에 있어서,
상기 제1 낱자는, 제1 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 제2 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하고,
상기 제2 낱자는, 상기 제1 시각으로부터 기설정된 시간이 지연된 제3 시각에 상기 제1 키네틱 모션에 따른 동작을 시작하고, 상기 제2 시각으로부터 상기 기설정된 시간이 지연된 제4 시각에 상기 제1 키네틱 모션에 따른 동작을 종료하는, 전자장치.