KR20180038318A

KR20180038318A - 자막 생성 시스템, 자막 생성 방법, 그리고 콘텐트 생성 프로그램

Info

Publication number: KR20180038318A
Application number: KR1020160129282A
Authority: KR
Inventors: 김종학; 박진선; 송현정; 장수연; 모효진; 신지현; 이진; 심준표
Original assignee: 주식회사 카카오
Priority date: 2016-10-06
Filing date: 2016-10-06
Publication date: 2018-04-16
Also published as: KR101856192B1

Abstract

적어도 하나의 프로세서에 의해 동작하는 장치의 자막 생성 방법으로서, 오디오 파일에 포함된 음성을 인식하여 화자가 발화한 자막 텍스트를 추출하는 단계, 텍스트 분절 기준을 기초로 상기 자막 텍스트를 분절하여 화면별 노출 텍스트를 결정하는 단계, 그리고 상기 화면별 노출 텍스트를 포함하는 자막 정보를 생성하는 단계를 포함하고, 상기 오디오 파일을 포함하는 영상이 사용자 인터페이스 화면에서 재생되면, 상기 화면별 노출 텍스트가 상기 영상에 동기화되어 출력된다.

Description

자막 생성 시스템, 자막 생성 방법, 그리고 콘텐트 생성 프로그램{SYSTEM AND METHOD FOR GENERATING CAPTION, AND PROGRAM OF CONTENT GENERATION}

본 발명은 자막 생성 기술에 관한 것이다.

최근 사용자는 스마트폰을 비롯한 모바일 단말을 이용하여 언제 어디서나 영상을 촬영할 수 있고, 이를 소셜미디어를 통해 공유할 수 있다. 사용자는 영상 편집기를 통해 영상에 자막을 삽입할 수 있으나, 영상 편집기가 보편화되어 있지 않고 별도 프로그램을 구매하거나 설치해야 하는 번거로움이 있다. 사용자가 영상 편집기를 사용하여 영상에 자막을 삽입하더라도 실시간으로 자막을 삽입하기 어렵다. 따라서, 간편하고 빠르게 자막을 생성할 수 있는 기술이 필요하다.

본 발명이 해결하고자 하는 과제는 영상에서 발화 텍스트를 추출하고, 감정 분석으로 추론한 화자의 감정을 표현하는 스타일을 적용하여 자막을 생성하는 시스템, 방법, 그리고 프로그램을 제공하는 것이다.

본 발명의 한 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 장치의 자막 생성 방법으로서, 오디오 파일에 포함된 음성을 인식하여 화자가 발화한 자막 텍스트를 추출하는 단계, 텍스트 분절 기준을 기초로 상기 자막 텍스트를 분절하여 화면별 노출 텍스트를 결정하는 단계, 그리고 상기 화면별 노출 텍스트를 포함하는 자막 정보를 생성하는 단계를 포함하고, 상기 오디오 파일을 포함하는 영상이 사용자 인터페이스 화면에서 재생되면, 상기 화면별 노출 텍스트가 상기 영상에 동기화되어 출력된다.

상기 텍스트 분절 기준은 상기 자막 텍스트에 포함된 단어들의 단어간 발화 시간 간격, 상기 자막 텍스트에 포함된 분절 지점 결정 형태소의 위치, 그리고 한 화면에 노출되는 최대 글자 수 중 적어도 하나를 포함할 수 있다.

상기 자막 생성 방법은 사용자 단말로부터 상기 오디오 파일을 수신하는 단계, 그리고 상기 자막 정보를 상기 사용자 단말로 전송하는 단계를 더 포함할 수 있다.

상기 화면별 노출 텍스트를 결정하는 단계는 상기 자막 텍스트에서 단어간 발화 시간 간격을 계산하고, 상기 단어간 발화 시간 간격이 기준값보다 긴 지점에서 상기 자막 텍스트를 분절할 수 있다.

상기 자막 생성 방법은 상기 화면별 노출 텍스트 중 적어도 하나의 노출 텍스트에 포함된 화자의 감정을 추론하는 단계를 더 포함하고, 상기 자막 정보를 생성하는 단계는 상기 화자의 감정을 나타내는 정보를 더 포함하는 자막 정보를 생성하며, 상기 영상이 상기 사용자 인터페이스 화면에서 재생되면, 상기 감정에 대응된 자막 스타일이 적용된 화면별 노출 텍스트가 상기 영상에 동기화되어 출력될 수 있다.

상기 화자의 감정을 추출하는 단계는 특정 감정을 나타내는 단어로 등록된 감정 표현 단어들, 행동이나 감정을 표현하는 문장 성분으로 등록된 감정 표현 문장 성분들, 그리고 특정 감정으로 분류되는 텍스트의 내포 성격들 중 적어도 하나를 포함하는 감정 판단 조건을 기초로 상기 화면별 노출 텍스트 중 적어도 하나의 노출 텍스트에 포함된 화자의 감정을 추출할 수 있다.

상기 자막 생성 방법은 자막 정보를 수정할 수 있는 사용자 인터페이스 화면을 제공하는 단계, 그리고 상기 사용자 인터페이스 화면에서 입력된 수정 정보를 기초로 상기 자막 정보를 업데이트하는 단계를 더 포함할 수 있다.

본 발명의 다른 실시예에 따라 프로세서에 의해 동작하기 위해 컴퓨터 판독 가능한 저장매체에 저장된 프로그램으로서, 마이크에 의해 획득된 오디오 파일을 자막 생성 서버로 전송하는 단계, 상기 자막 생성 서버로부터 상기 오디오 파일에 대한 자막 정보를 수신하는 단계, 그리고 상기 자막 정보에 포함된 자막 텍스트를 사용자 인터페이스 화면에서 재생되는 비디오 영상과 함께 출력하는 단계를 실행하는 명령어들을 포함하고, 상기 비디오 영상은 상기 마이크와 동시에 활성화된 카메라에 의해 촬영된 영상이다.

상기 자막 정보는 상기 자막 텍스트에 적용할 자막 스타일을 더 포함하고, 상기 출력하는 단계는 상기 자막 텍스트를 상기 자막 스타일에서 지정된 디자인 양식으로 꾸며서 출력할 수 있다.

상기 자막 스타일은 감정별 자막 스타일 중에서 상기 자막 텍스트에 포함된 화자의 감정에 대응하여 추출될 수 있다.

상기 출력하는 단계는 상기 사용자 인터페이스 화면에 사용자가 선택할 수 있는 복수의 자막 스타일을 표시하는 단계, 그리고 상기 사용자 인터페이스 화면에서 특정 자막 스타일이 선택되면, 상기 자막 텍스트에 상기 특정 자막 스타일이 적용된 자막을 상기 비디오 영상과 함께 출력하는 단계를 포함할 수 있다.

상기 복수의 자막 스타일 중 적어도 하나는 특정 방송 프로그램에서 사용되는 자막 특징을 표현하는 자막 스타일일 수 있다.

상기 프로그램은 상기 사용자 인터페이스 화면에 사용자가 상기 자막 정보를 수정할 수 있는 수정 화면을 표시하는 단계, 상기 수정 화면에서 입력된 수정 정보를 상기 자막 정보에 적용하여 상기 자막 정보를 업데이트하는 단계, 그리고 상기 업데이트된 자막 정보에 포함된 자막 텍스트를 상기 비디오 영상과 함께 출력하는 단계를 더 실행하는 명령어들을 포함할 수 있다.

본 발명의 또 다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 사용자 단말의 자막 생성 방법으로서, 텍스트에 포함된 감정에 따라 적용되는 감정별 자막 스타일을 저장하는 단계, 자막 텍스트에 포함된 화자의 감정을 확인하는 단계, 상기 감정별 자막 스타일에서 상기 화자의 감정에 대응되는 감정 자막 스타일을 추출하는 단계, 그리고 상기 자막 텍스트에 상기 감정 자막 스타일이 적용하여 생성된 자막을 영상에 동기화하여 사용자 인터페이스 화면에서 출력하는 단계를 포함한다.

상기 화자의 감정을 확인하는 단계는 마이크에 의해 획득된 오디오 파일을 자막 생성 서버로 전송하는 단계, 상기 자막 생성 서버로부터 상기 오디오 파일에 포함된 자막 텍스트와 상기 화자의 감정을 포함하는 자막 정보를 수신하는 단계, 그리고 상기 자막 정보에서 상기 자막 텍스트와 상기 화자의 감정을 추출하는 단계를 포함할 수 있다.

상기 자막 생성 방법은 상기 자막 텍스트를 수정할 수 있는 사용자 인터페이스 화면을 제공하는 단계, 그리고 상기 사용자 인터페이스 화면에서 수정된 정보를 기초로 상기 자막 텍스트를 업데이트하는 단계를 더 포함할 수 있다.

상기 자막 생성 방법은 상기 감정 자막 스타일을 수정할 수 있는 사용자 인터페이스 화면을 제공하는 단계, 그리고 상기 사용자 인터페이스 화면에서 수정된 정보를 기초로 상기 자막 텍스트에 적용될 자막 스타일을 업데이트하는 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면 영상에 자막을 빠르고 간편하게 삽입할 수 있어 영상 콘텐트 제작 및 공유를 활성화할 수 있다. 본 발명의 실시예에 따르면 사용자가 자신의 감정을 표현하는 이모티콘을 개별적으로 선택할 필요 없이, 감정 분석으로 도출된 감정에 따라 적용되는 자막 스타일을 통해 화자의 감정을 자동으로 강조 표현할 수 있다. 본 발명의 실시예에 따르면 다양한 자막 스타일 템플릿을 통해 영상을 재미있게 제작할 수 있다.

도 1은 본 발명의 한 실시예에 따른 자막 생성 시스템의 구성도이다.
도 2는 본 발명의 한 실시예에 따른 자막 생성 방법을 설명하는 흐름도이다.
도 3은 본 발명의 한 실시예에 따른 자막 생성 방법을 예시적으로 설명하는 도면이다.
도 4는 본 발명의 한 실시예에 따른 자막 분절 방법을 설명하는 도면이다.
도 5와 도 6은 본 발명의 한 실시예에 따른 감정 자막 생성 방법을 설명하는 흐름도이다.
도 7은 본 발명의 한 실시예에 따른 감정 자막 스타일이 적용된 예시이다.
도 8은 본 발명의 한 실시예에 따른 자막 스타일 템플릿 제공 방법을 설명하는 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 한 실시예에 따른 자막 생성 시스템의 구성도이다.

도 1을 참고하면, 자막 생성 시스템(10)은 콘텐트 생성 프로그램(100)을 구동하는 사용자 단말(20), 그리고 사용자 단말(20)과 통신하는 자막 생성 서버(30)를 포함할 수 있다. 앞으로, 사용자 단말(20)과 자막 생성 서버(30)로 분리하여 설명할 수 있으나, 사용자 단말(20)은 서버(30)로부터 일부 도움을 받아 자막을 직접 생성하거나, 서버(30)와의 통신 없이 독자적으로 자막 생성할 수 있다. 이 경우, 콘텐트 생성 프로그램(100)이 자막 생성 서버(30)의 일부 기능을 수행할 수 있는 명령어들을 포함하거나, 자막 생성 서버(30)의 모든 기능을 수행할 수 있는 명령어들을 포함할 수 있다. 콘텐트 생성 프로그램(100)은 voice visualizer라고 부를 수 있다. 사용자 단말(20)과 자막 생성 서버(30) 중 적어도 하나는 자막 스타일별로 자막 텍스트의 모양, 크기, 색깔 등을 변경할 수 있는 디자인 양식을 저장할 수 있다. 디자인 양식은 자막에 추가되는 각종 이미지나 애니메이션(“스티커”라고 부른다), 화면 내에서의 자막 위치 정보 등을 더 포함할 수 있다.

사용자 단말(20)은 컴퓨터 판독 가능한 저장 매체에 저장되는 콘텐트 생성 프로그램(100), 그리고 프로세서, 메모리, 디스플레이, 통신 모듈, 카메라, 마이크 등의 하드웨어를 포함한다. 메모리는 콘텐트 생성 프로그램(100)의 명령어들을 저장하고 있거나, 저장 장치로부터 콘텐트 생성 프로그램(100)의 명령어들을 로드하여 일시 저장한다. 프로세서는 메모리에 저장되어 있거나 로드된 명령어들을 실행하여 본 발명의 콘텐트 생성 프로그램(100)을 구동한다. 디스플레이는 콘텐트 생성 프로그램(100)에서 제공하는 사용자 인터페이스 화면을 표시하고, 사용자 입력을 수신할 수 있고, 예를 들면 터치 입력을 수신할 수 있다. 통신 모듈은 통신망을 통해 자막 생성 서버(30)와 통신한다.

사용자 단말(20)은 다양한 형태로 구현될 수 있고, 예를 들면, 스마트폰과 같은 모바일 단말, 스마트패드와 같은 패드형 단말, 랩탑 컴퓨터 등 각종 형태의 컴퓨터, 웨어러블 디바이스, TV 단말 등의 형태로 구현될 수 있다.

사용자 단말(20)은 콘텐트 생성 프로그램(100)을 구동하여 다음의 동작들을 처리한다. 콘텐트 생성 프로그램(100)은 단독 어플리케이션으로 구현될 수 있고, 다른 어플리케이션에 통합 구현될 수 있다.

한 실시예에 따르면, 사용자 단말(20)은 원본 영상을 자막 생성 서버(30)로 전송하여 자막 영상을 요청할 수 있다. 사용자 단말(20)은 자막 생성 서버(30)로부터 전달된 자막 영상을 표시하고, 사용자가 자막을 수정할 수 있는 사용자 인터페이스 화면을 제공할 수 있다. 수정 정보를 기초로 자막 정보는 업데이트되어 저장된다. 여기서, 원본 영상은 비디오 및 오디오가 포함된 무자막 영상을 의미하고, 자막 영상은 원본 영상에 자막이 추가된 영상을 의미한다.

다른 실시예에 따르면, 사용자 단말(20)은 원본 영상에서 오디오 파일을 추출하고, 오디오 파일을 자막 생성 서버(30)로 전송하여 자막 정보를 요청할 수 있다. 사용자 단말(20)은 자막 생성 서버(30)로부터 전달된 자막 정보를 원본 영상에 합성하여 출력하고, 사용자가 자막을 수정할 수 있는 사용자 인터페이스 화면을 제공할 수 있다. 여기서, 자막 정보는 원본 영상에 합성되는 자막 화면 정보, 그리고 원본 영상과 자막 화면 정보의 동기화 정보(synchronization)(원본 영상에서 출력되는 시각 정보)를 포함할 수 있다.

또 다른 실시예에 따르면, 사용자 단말(20)은 카메라로 비디오를 촬영하는 동시에 마이크로 오디오를 녹음하고, 비디오와 오디오를 결합하여 원본 영상을 생성한다. 이때, 사용자 단말(20)은 마이크에서 획득된 오디오 파일을 자막 생성 서버(30)로 전송하여 자막 정보를 요청할 수 있다. 사용자 단말(20)은 자막 생성 서버(30)로부터 전달된 자막 정보를 원본 영상에 합성하여 출력하고, 사용자가 자막을 수정할 수 있는 사용자 인터페이스 화면을 제공할 수 있다. 여기서, 자막 정보는 원본 영상에 합성되는 자막 화면 정보, 그리고 원본 영상과 자막 화면 정보의 동기화 정보(원본 영상에서 출력되는 시각 정보)를 포함할 수 있다.

자막 화면 정보는 한 화면에 노출되는 노출 정보 묶음으로서, 자막 텍스트를 포함하고, 자막 텍스트 주변에 추가되는 이미지나 애니메이션 등을 더 포함할 수 있다. 이때, 자막 화면 정보는 자막 텍스트의 모양, 크기, 색깔 등이 변경된 자막(자막 스타일이 이미 적용된 자막)을 포함할 수 있다. 또는 자막 화면 정보는 자막 텍스트에 적용할 자막 스타일 정보를 포함하고, 사용자 단말(20)이 자막 텍스트에 자막 스타일을 적용하여 꾸며진 자막을 사용자 인터페이스 화면에 출력할 수 있다. 이 경우, 자막 스타일별 자막 텍스트의 모양, 크기, 색깔 등을 변경할 수 있는 디자인 양식은 사용자 단말(20)에 저장되어 있다. 사용자 단말(20)은 사용자에게 자막 스타일을 선택할 수 있는 사용자 인터페이스 화면을 제공하고, 사용자 선택에 의해 자막 스타일이 변경될 수 있다.

이와 같이 오디오 파일을 획득하는 방법은 다양할 수 있는데, 사용자 단말(20)이 마이크에서 수집된 오디오 파일을 자막 생성 서버(30)로 전송하고, 자막 생성 서버(30)로부터 자막 정보를 수신하는 것으로 주로 설명한다.

자막 생성 서버(30)는 적어도 하나의 프로세서에 의해 동작하고, 자막 텍스트 추출부(120), 자막 감정 분석부(140), 그리고 자막 정보 제공부(160)를 포함한다.

자막 텍스트 추출부(120)는 음성 인식 기술을 이용하여 사용자 단말(20)로부터 전달받은 콘텐트(영상 파일 또는 오디오 파일)에서 화자가 발화한 텍스트를 추출한다. 자막 텍스트 추출부(120)는 음성 인식 결과가 부정확한 부분에 대해서는 이를 나타내는 표시(예를 들면, ??? 또는 ooo)를 하여 자막 텍스트를 생성할 수 있다.

자막 텍스트 추출부(120)는 전체 자막 텍스트를 분리하여 한 화면에 노출되는 노출 텍스트를 결정한다. 자막 생성 서버(30)는 적어도 하나의 열 또는 적어도 하나의 행에 노출되는 텍스트 수를 지정하여 노출 텍스트 범위를 결정할 수 있다. 하지만, 이 방법은 단순 정보 전달 목적의 자막 생성이라면 문제없을 수 있으나, 경우에 따라 화자가 전달하고자 하는 연속된 내용이 한 화면에 노출되지 않거나, 화자가 전달하고자 하는 내용이 바뀌었는데도 불구하고 한 화면에 함께 노출될 수 있다. 이를 해결하기 위해, 자막 텍스트 추출부(120)는 화자가 연속적으로 발화한 텍스트를 완성된 의사 표현 단위라고 추론하고, 이를 한 화면에 노출할 텍스트 범위로 결정할 수 있다. 자막 텍스트 추출부(120)는 단어간 발화 시간 간격을 계산하고, 발화 시간 간격이 기준값보다 긴 지점이 화자가 전달하고자 하는 내용이 일단락되는 지점이라고 추론하고, 해당 지점에서 자막 텍스트를 분리(분절)할 수 있다. 여기서, 분리된 자막 텍스트 각각을 각 화면에서 노출되는 "노출 텍스트"라고 정의한다.

자막 텍스트 추출부(120)는 화면별 노출 텍스트와 각 노출 텍스트의 동기화 정보를 자막 정보 제공부(160)로 전달한다. 그러면, 자막 정보 제공부(160)가 화면별 노출 텍스트와 각 노출 텍스트의 동기화 정보를 포함하는 자막 정보를 사용자 단말(20)로 전달할 수 있다.

자막 감정 분석부(140)는 자막 텍스트 추출부(120)에서 추출된 자막 텍스트로부터 화자의 감정을 분석할 수 있다. 자막 감정 분석부(140)는 자막 텍스트에 포함된 단어 및 문장 성분(명사, 형용사, 부사, 동사 등)을 기초로 감정의 종류(예를 들면, 기쁨, 놀람, 슬픔, 분노 등) 또는/및 감정 강조 단어를 추출한다. 감정 강조 단어는 미리 정해질 수 있고 또는 자막 텍스트에서 추출된 주요 단어일 수 있다. 자막 감정 분석부(140)는 자막 텍스트에 포함된 감정의 종류 또는/및 감정 강조 단어를 자막 정보 제공부(160)로 전달한다.

자막 정보 제공부(160)는 자막 텍스트에 포함된 감정의 종류 또는/및 감정 강조 단어를 기초로 자막 텍스트에 적용할 감정 자막 스타일을 결정할 수 있다. 감정 자막 스타일은 감정에 따라 서로 다른 디자인 양식으로 텍스트를 꾸미기 위한 정보로서, 감정별로지정된 특정 자막 스타일을 지시할 수 있다.

자막 정보 제공부(160)는 화면별 노출 텍스트와 각 노출 텍스트의 동기화 정보, 그리고 각 노출 텍스트에 지정되는 감정 자막 스타일을 포함하는 자막 정보를 사용자 단말(20)로 전달할 수 있다. 사용자 단말(20)은 노출 텍스트에 지정된 감정 자막 스타일을 확인하고, 확인한 감정 자막 스타일을 적용하여 꾸며진 자막을 사용자 인터페이스 화면에 출력한다. 이 경우, 감정 자막 스타일별 자막 텍스트의 모양, 크기, 색깔 등을 변경할 수 있는 디자인 양식은 사용자 단말(20)에 저장되어 있다.

또는 자막 정보 제공부(160)가 화면별 노출 텍스트에 감정 자막 스타일을 적용한 후, 감정 자막 스타일로 꾸며진 자막 레이어(자막 화면)를 콘텐트 생성 프로그램(100)으로 전달할 수 있다. 자막 레이어(자막 화면)는 영상에 위에 오버레이될 수 있다.

감정 자막 스타일이 적용되는 방식은 해당 자막 스타일의 디자인 양식에 따라 다양할 수 있다. 예를 들면, 감정 자막 스타일에 따라, 노출 텍스트 전체에 특정 자막 스타일이 적용되거나, 노출 텍스트의 감정 강조 단어와 같은 특정 단어/특정 문장 성분에 특정 자막 스타일이 적용되거나, 노출 텍스트 주변에 감정 표출 이미지(본 발명에서는 "감정 스티커"라고 부른다)를 추가하는 특정 자막 스타일이 적용될 수 있다. 감정 자막 스타일의 종류는 감정의 종류/노출 텍스트 내용/노출 텍스트의 문장 성분에 따라 다양하게 가변될 수 있다.

자막 정보 제공부(160)는 감정 자막 스타일과 별도로, 자막 스타일 템플릿을 사용자 단말(20)에 제공할 수 있다. 사용자 단말(20)의 사용자 인터페이스 화면은 자막 스타일 템플릿을 표시하고, 사용자가 특정 자막 스타일을 선택할 수 있다. 사용자 단말(20)은 선택된 자막 스타일을 적용한 후, 자막 스타일로 꾸며진 노출 텍스트를 인터페이스 화면에 출력한다.

자막 스타일 템플릿은 자막이 특징적인 방송 프로그램(예를 들면, 무한도전, 마이 리틀 텔레비전 등)에서 사용하는 자막 스타일들(예능 자막 스타일)로 구성될 수 있다. 각 예능 자막 스타일은 고유의 자막 특징을 표현하는 자막 텍스트의 모양, 크기, 색깔, 자막 텍스트 위치, 자막 텍스트와 함께 표시되는 이미지(스티커) 종류 및 위치 등을 지정하는 각종 디자인 양식을 포함할 수 있다. 자막 스타일 템플릿에 포함된 예능 자막 스타일별 디자인 양식은 사용자 단말(20)에 저장될 수 있다. 콘텐트 생성 프로그램(100) 업데이트 시 자막 스타일 템플릿 관련 정보도 업데이트될 수 있다. 또는 특정 예능 자막 스타일이 선택되면, 사용자 단말(20)이 서버(30)로부터 해당 예능 자막 스타일의 디자인 양식을 가져올 수 있다.

도 2는 본 발명의 한 실시예에 따른 자막 생성 방법을 설명하는 흐름도이다.

도 2를 참고하면, 사용자 단말(20)은 콘텐트(원본 영상 또는 오디오 파일)를 자막 생성 서버(30)로 전달하여 자막 요청한다(S110).

자막 생성 서버(30)는 음성 인식 기술을 이용하여 전달받은 콘텐트에서 화자가 발화한 텍스트를 추출한다(S120). 이때, 자막 텍스트 추출부(120)는 각 단어의 발화 시작 시각 및 해당 단어가 점유한 시간을 추출할 수 있다.

자막 생성 서버(30)는 텍스트 분절 기준을 기초로 자막 텍스트를 분절하여 화면별 노출 텍스트를 결정한다(S130). 텍스트 분절 기준은 다양할 수 있고, 구체적인 방법은 도 4를 참고하여 자세하게 설명한다.

자막 생성 서버(30)는 화면별 노출 텍스트와 각 노출 텍스트의 동기화 정보(노출 시각)를 포함하는 자막 정보를 사용자 단말(20)로 전달한다(S140).

사용자 단말(20)은 자막 정보로부터 추출된 자막과 원본 영상이 합성된 자막 영상을 재생한다(S150).

도 3은 본 발명의 한 실시예에 따른 자막 생성 방법을 예시적으로 설명하는 도면이다.

도 3을 참고하면, 사용자 단말(20)이 일정 시간 동안 영상을 촬영한다(S210). 이때, 사용자 단말(20)은 카메라 활성화와 동시에 마이크를 활성화하여 마이크로 입력된 오디오를 수집(녹음)한다.

사용자 단말(20)은 음성 인식 기술을 이용하여 오디오 파일에서 화자가 발화한 텍스트를 추출한다(S220). 또는 자막 생성 서버(30)가 사용자 단말(20)로부터 오디오 파일을 수신하고, 음성 인식 기술을 이용하여 오디오 파일에서 화자가 발화한 텍스트를 추출할 수 있다. 예를 들면, 추출된 자막 텍스트는 "결혼 축하해 사랑해 결혼식에 꼭 갈께"일 수 있다.

사용자 단말(20)은 텍스트 분절 기준을 기초로 자막 텍스트를 분절한 화면별 노출 텍스트와 각 노출 텍스트의 동기화 정보(노출 시각)를 포함하는 자막 정보를 생성한다(S230). 또는 자막 생성 서버(30)가 텍스트 분절 기준을 기초로 자막 텍스트를 분절한 화면별 노출 텍스트와 각 노출 텍스트의 동기화 정보(노출 시각)를 포함하는 자막 정보를 생성할 수 있다. 예를 들면, 자막 정보는 영상 재생 시부터 2초에 노출되도록 설정된 “결혼 축하해 사랑해”, 5초 후 노출되도록 설정된 “결혼식에 꼭 갈께”를 포함할 수 있다.

사용자 단말(20)은 영상 재생 시, 자막 정보에 포함된 자막과 원본 영상을 합성하여 재생한다(S240). 영상 재생 후 2초부터 노출되는 텍스트는 다음 자막 정보가 노출되는 시각(5초)까지 유지될 수 있다. 또는 화면별 노출 텍스트는 노출 시간(시작 시각 및 종료 시각)이 설정되고, 노출 시간 동안에만 노출될 수 있다.

도 4는 본 발명의 한 실시예에 따른 자막 분절 방법을 설명하는 도면이다.

도 4를 참고하여 자막 생성 서버(30)가 텍스트 분절 기준을 기초로 텍스트를 분절하는 방법에 대해 설명하나, 텍스트 분절 방법은 사용자 단말(20)이 동일하게 구현할 수도 있다.

한 실시예에 따르면, 텍스트 분절 기준은 발화 시간 간격일 수 있다. 자막 생성 서버(30)는 화자가 연속적으로 발화한 텍스트를 완성된 의사 표현 단위라고 추론하고, 이를 한 화면에 노출할 텍스트 범위라고 결정할 수 있다. 자막 생성 서버(30)는 단어간(어절간) 발화 시간 간격을 계산하고, 발화 시간 간격이 기준값보다 긴 지점이 화자가 전달하고자 하는 내용이 일단락되는 지점이라고 추론하고, 해당 지점에서 자막 텍스트를 분절한다. 기준값은 절대값이거나 단어간 발화 시간 간격의 평균값과 같이 다양할 수 있다.

만약, 자막 텍스트인 "결혼 축하해 사랑해 결혼식에 꼭갈께"에서 "결혼"과 "축하해" 사이의 간격이 0.1초이고, "축하해"와 "사랑해" 사이의 간격이 0.3초이고, "사랑해"와 "결혼식에" 사이의 간격이 1초이며, "결혼식에"와 "꼭갈께" 사이의 간격이 0.2초라고 가정한다. 단어간 발화 시간 간격의 평균값은 0.4초(=(0.1+0.3+1+0.2)/4)이므로, 자막 생성 서버(30)는 0.4초보다 간격이 긴 "사랑해"와 "결혼식에" 사이를 분절 지점으로 결정한다. 자막 생성 서버(30)는 분절 지점에서 분절된 텍스트인 "결혼 축하해 사랑해"를 한 화면에 노출할 텍스트라고 결정하고, "결혼식에 꼭 갈께"를 다음 화면에 노출할 텍스트라고 결정한다.

자막 생성 서버(30)는 노출 텍스트 "결혼 축하해 사랑해"의 첫 번째 단어가 발화된 시각(예를 들면, 시작 시각부터 2초)을 노출 텍스트의 노출 시각으로 결정하고, 노출 텍스트 "결혼식에 꼭 갈께"의 첫 번째 단어가 발화된 시각(예를 들면, 시작 시각부터 5초)을 노출 텍스트의 노출 시각으로 결정할 수 있다.

다른 실시예에 따르면, 텍스트 분절 기준은 특정 형태소일 수 있다. 자막 생성 서버(30)는 텍스트의 형태소(품사) 분석을 통해, 특정 형태소(예를 들면, 서술어나 접속사 등)가 발견되면, 해당 형태소 전후를 분절 지점으로 결정할 수 있다. 특정 형태소를 분절 지점 결정 형태소라고 부를 수 있다. 예를 들면, “결혼 축하해 사랑해 결혼식에 꼭 갈께"에서 “축하해”, “사랑해”, “갈께”가 서술어이므로, “결혼 축하해”, “사랑해”, “결혼식에 꼭 갈께"로 텍스트가 분절될 수 있다. 분절 텍스트 각각이 한 화면에 노출될 텍스트일 수 있다. 또는 분절 텍스트 각각이 한 화면의 한 줄에 노출될 텍스트일 수 있다. 즉, 한 화면에 두 줄의 자막이 들어가도록 설정된 경우, “결혼 축하해”의 밑에 “사랑해”가 동시에 표시되고, 다음 화면에 “결혼식에 꼭 갈께"가 표시될 수 있다.

또 다른 실시예에 따르면, 텍스트 분절 기준은 최대 글자 수일 수 있다. 자막 생성 서버(30)는 한 화면에 노출될 최대 자막 줄 수(예를 들면, 2줄) 그리고 각 자막에 노출되는 최대 글자 수(예를 들면, 14자)를 기준으로 자막 텍스트를 분절할 수 있다. 이때, 자막 생성 서버(30)는 최대 글자 수 이내로 한 화면에 노출할 텍스트를 결정하되, 어절과 어절 사이를 분절 지점으로 결정할 수 있다.

자막 생성 서버(30)는 이러한 다양한 텍스트 분절 기준을 복합적으로 적용하여 텍스트를 분절할 수 있다. 예를 들면, 자막 생성 서버(30)는 한 화면에 노출될 최대 글자 수(예를 들면, 14자)를 설정하고, 최대 글자 수를 만족하는 텍스트 분절 지점을 발화 시간 간격이나, 텍스트의 형태소를 기초로 추출할 수 있다.

한편, 발화 시간 간격을 기준으로 텍스트를 분절하는 경우, 화자가 말이 빠르다면 단어간 발화 시간 간격의 평균값이 짧기 때문에 조금만 발화 간격이 길어지면 분절되기 쉽다. 따라서, 화자가 말을 빨리한다면 한 화면에 노출되는 텍스트의 글자 수가 적어지고, 자막 전환이 빨라진다. 결과적으로 자막 생성 서버(30)는 화자가 말을 빠른 속도로 하는 경우, 빠르게 바뀌는 자막을 생성하여 빠른 발화 속도를 시각적으로 전달할 수 있다.

반대로, 화자가 말이 느리다면 단어간 발화 시간 간격의 평균값이 길기 때문에 발화 간격이 길어지더라도 분절되지 않을 수 있다. 따라서, 화자가 말을 느리게 한다면 한 화면에 노출되는 텍스트의 글자 수가 많아지고, 자막 전환이 느려진다. 결과적으로 자막 생성 서버(30)는 화자가 말을 느린 속도로 하는 경우, 느리게 바뀌는 자막을 생성하여 느린 발화 속도를 시각적으로 전달할 수 있다.

도 5와 도 6은 본 발명의 한 실시예에 따른 감정 자막 생성 방법을 설명하는 흐름도이다.

도 5와 도 6을 참고하여 자막 생성 서버(30)가 감정 자막을 생성하는 방법에 대해 설명하나, 감정 자막 생성 방법은 사용자 단말(20)이 동일하게 구현할 수도 있다.

도 5를 참고하면, 자막 생성 서버(30)는 자막 텍스트를 확인한다(S310). 자막 텍스트는 사용자 단말(20)로부터 수신한 오디오 파일로부터 추출될 수 있다.

자막 생성 서버(30)는 자막 텍스트에 포함된 단어 및 문장 성분(명사, 형용사, 부사, 동사 등)을 기초로 자막 텍스트에 포함된 감정(예를 들면, 기쁨, 놀람, 슬픔, 분노 등)이 있는지 판단한다(S320). 자막 생성 서버(30)는 복수의 판단 조건을 기초로 자막 텍스트에 포함된 감정을 추출할 수 있고, 이는 도 6에서 구체적으로 설명한다.

자막 텍스트에 해당하는 감정이 있는 경우, 자막 생성 서버(30)는 감정의 종류 또는/및 감정 강조 단어를 기초로 자막 텍스트에 적용할 감정 자막 스타일을 결정한다(S330).

자막 텍스트에 해당하는 감정이 없는 경우, 자막 생성 서버(30)는 중립 감정(무감정)의 감정 자막 스타일을 자막 텍스트에 적용하기로 결정한다(S340).

자막 생성 서버(30)는 화면별 노출 텍스트와 각 노출 텍스트의 동기화 정보, 그리고 각 노출 텍스트에 지정되는 감정 자막 스타일을 포함하는 자막 정보를 생성한다(S350). 자막 정보는 사용자 단말(20)로 전달된다.

한편, 도 5의 자막 텍스트에 포함된 감정이 있는지 판단하는 단계(S320)에서 자막 생성 서버(30)는 도 6과 같이 복수의 판단 조건을 기초로 감정을 추출할 수 있다. 자막 생성 서버(30)는 복수의 판단 조건 각각의 결론을 종합하여 감정을 추출할 수 있고, 또는 복수의 판단 조건 중 적어도 하나에서 감정을 추출할 수 있다.

도 6을 참고하면, 구체적으로, 자막 생성 서버(30)는 감정 종류별 감정 표현 단어를 미리 등록해 두고, 자막 텍스트에 등록된 감정 표현 단어가 포함되는 경우, 포함된 감정 표현 단어에 대응된 감정을 자막 텍스트의 감정이라고 추출할 수 있다(S322). 예를 들면, 감정 표현 단어는 "사랑해", "좋아해" 등과 같은 단어를 "기쁨"에 관련된 감정 표현 단어라고 등록할 수 있다. 신조어나 비속어에 대해서도 감정을 매핑시켜 둘 수 있다. 이때, 비속어는 강도에 따라 "놀람"과 "분노"의 부정적 감정으로 분류할 수 있다.

자막 텍스트에 등록된 감정 표현 단어가 포함되지 않은 경우, 자막 생성 서버(30)는 표 1과 같이 자막 텍스트에 포함된 단어의 성격을 자연어처리를 이용한 감정분석을 통해 자막 텍스트에 내포된 감정을 추론할 수 있다(S324).

텍스트의 감정분석 결과	적용할 자막 스타일
만족, 감동, 감탄, 즐거움, 기쁨, 호감, 두근거림, 정겨움, 관심, 행복, 애정, 애틋함, 칭찬, 존경, 훈훈함, 편안함, 따뜻함, 믿음, 친근감, 산뜻함, 안도, 기대, 기원, 바람, 격려, 위로, 축하, 환영, 감사, 자신감, 자랑스러움, 야릇함, 묘함, 아득함, 부러움, 이해, 공감, 후련함	기쁨
놀람, 흥분, 짜릿함, 혼란, 어려움, 시원함, 명쾌함, 확신, 솔직함, 인상적, 의문, 의심, 부끄러움, 모멸감, 난감함	놀람
무관심, 무덤덤, 심심함, 유감스러움, 허탈함, 허무함, 어이없음, 어색함, 안타까움, 아쉬움, 답답함, 억울함, 서운함, 그리움, 어리숙함, 슬픔, 우울, 불행, 의기소침, 허전함, 쓸쓸함, 피곤함, 고민, 걱정, 미안함, 죄책감, 불쌍함, 차분함, 진지함, 평가, 긴장, 불안, 공포, 실망, 고통	슬픔
욕심, 집착, 불만, 후회, 진부함, 지루함, 지겨움, 절망, 불쾌함, 욕설, 혐오, 비판, 비아냥, 잔인함, 귀찮음, 한심함, 역겨움, 불편함, 미움, 무시, 질책, 분노, 증오, 비난, 짜증, 경멸, 화남	분노 (혐오)

자막 텍스트에 내포된 감정이 추론되지 않은 경우, 자막 감정 분석부(140)는 자막 텍스트를 문장 성분(명사, 형용사, 부사, 동사(어근) 등)으로 나누고, 문장 성분 중에서 행동이나 감정을 표현하는 감정 표현 문장 성분이 포함되는 경우, 감정 표현 문장 성분에 해당하는 감정을 자막 텍스트의 감정으로 추론할 수 있다(S326). 표 2와 같이 행동이나 감정을 표현하는 감정 표현 문장 성분과 감정을 매핑하고, 이를 기초로 자막 텍스트에서 감정 표현 문장 성분이 존재하는지 판단한다. 예를 들어, 자막 텍스트에 "짜증내다"와 같이 "~내다"와 결합하는 명사가 포함되어 있으면, "분노"에 해당하는 자막 스타일을 적용하고, 자막 텍스트에 감탄사가 포함되어 있으면, "놀람"에 해당하는 자막 스타일을 적용할 수 있다.

품사	대분류	중분류	설명	예시	적용할 자막 스타일
일반 명사	NNG	ncn	[-내다]와 결합하는 명사	짜증	분노(혐오)
		ncp	[하다]성 명사	공부, 후회	슬픔
		ncpa	형용사파생접미사와 결합하는 명사	가능, 의아	놀람
형용사	VA	pa_2	2음절 형용사 사전	슬프, 탐내	슬픔
관형사	MM	mmd	지시관형사	어떤, 다음	놀람
일반 부사	MAG	ma_j	조사가 붙을 수 있는 부사어	그만큼, 꼼짝	놀람
		ma_noj	조사가 붙을 수 없는 부사어	매우, 간절히	슬픔
		ma_a	뒤에 [하다]성 형용사가 오는 부사어		슬픔
		ma_v	뒤에 [하다]성 부사가 오는 부사어		슬픔
		ma_s	원래 부사 사전에서 2음절 이상만 추가한 사전(띄어쓰기 오류 관련)	빨리, 가끔	놀람
		ma_noj	명사와의 결합이 1레벨인 부사	몽실몽실	기쁨
		ma_exact	명사보다 테그 레벨이 높은 부사어	무조건	놀람
		ma_v_guri	동사파생접미사 [거리다]앞에 나오는 부사 사전	꿈틀, 꼼지락	놀람
감탄사	IC	i	감탄사	거참, 거봐	놀람
어근	XR	xrpa	형용사파생접미사와 결합하는 어근 사전	화려, 훌륭	기쁨
		xrpv	동사파생접미사(xsv)와 결합하는 어근 사전	깝죽, 반질	놀람
		xrpa	형용사파생접미사와 결합하는 어근(xrpa) 중 ncp 옵션을 따르는 어근 사전	간단, 간편, 희귀	기쁨

도 6의 각 단계의 순서는 변경될 수 있고, 단계(S322, S324, S326) 중 적어도 하나의 단계가 단계(S320)에 포함될 수 있으며, 감정 판단 조건에 따라 새로운 단계가 단계(S320)에 포함될 수 있다.

도 7은 본 발명의 한 실시예에 따른 감정 자막 스타일이 적용된 예시이다.

도 7을 참고하면, 감정 자막 스타일은 감정별로 지정되고, 감정에 따라 서로 다른 디자인 양식으로 텍스트를 꾸밀 수 있다. 감정 자막 스타일마다 해당 감정을 표현하는 꾸미기 스타일(텍스트의 모양, 크기, 색깔, 배치 등)이 지정되고, 텍스트 주변에 추가되는 감정 스티커가 추가로 지정될 수 있다.

도 7에서 예시한 바와 같이, 각 텍스트의 감정이 중립, 놀람, 기쁨, 분노, 슬픔이라면, 각 감정에 대응된 감정 자막 스타일이 해당 텍스트에 적용된다. 추가로, 각 텍스트의 감정이 중립, 놀람, 기쁨, 분노, 슬픔이라면, 각 감정에 대응된 감정 스티커((놀람 스티커, 하트 스티커, 분노 스티커, 눈물 스티커 등)가 텍스트 주변이 추가될 수 있다.

감정 강조 단어는 자막 텍스트에서 메시지 전달력을 높일 수 있는 단어(문장 성분)로서 적어도 하나의 단어가 추출될 수 있다. 도 7에서 예시한 바와 같이, 각 감정 자막 스타일은 자막 텍스트에서 명사와 부사를 다른 디자인으로 표현하거나, 특정 단어를 강조하는 꾸미기를 할 수 있다.

도 8은 본 발명의 한 실시예에 따른 자막 스타일 템플릿 제공 방법을 설명하는 도면이다.

도 8을 참고하면, 콘텐트 생성 프로그램(100)에서 제공되는 사용자 인터페이스 화면(200)은 영상 표시 영역(220)과 자막 스타일 템플릿 영역(240)을 포함할 수 있다. 영상 표시 영역(220)에서 영상이 재생된다. 자막 스타일 템플릿 영역(240)은 적용 가능한 복수의 자막 스타일들을 포함한다. 자막 스타일 템플릿은 예를 들면, 무한도전, 마이 리틀 텔레비전 등에서 사용하는 자막 스타일들(예능 자막 스타일)을 포함할 수 있다.

각 자막 스타일을 구성하는 디자인 양식(꾸미기 정보)은 콘텐트 생성 프로그램(100)이 설치된 사용자 단말(20)에 저장될 수 있다.

사용자가 자막 스타일 템플릿 영역(240)에서 어느 자막 스타일을 선택하면, (a), (b), (c), (d)와 같이 해당 자막 스타일이 적용된 자막 영상이 영상 표시 영역(220)에서 재생된다.

동일한 자막 텍스트라고 하더라도, 자막 스타일에 따라 (a), (b), (c), (d)와 같이 사용자 인터페이스 화면에 출력되는 결과가 다양하게 변경될 수 있다.

이와 같이, 본 발명의 실시예에 따르면 영상에 자막을 빠르고 간편하게 삽입할 수 있어 영상 콘텐트 제작 및 공유를 활성화할 수 있다. 본 발명의 실시예에 따르면 사용자가 자신의 감정을 표현하는 이모티콘을 개별적으로 선택할 필요 없이, 감정 분석으로 도출된 감정에 따라 적용되는 자막 스타일을 통해 화자의 감정을 자동으로 강조 표현할 수 있다. 본 발명의 실시예에 따르면 다양한 자막 스타일 템플릿을 통해 영상을 재미있게 제작할 수 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

적어도 하나의 프로세서에 의해 동작하는 장치의 자막 생성 방법으로서,
오디오 파일에 포함된 음성을 인식하여 화자가 발화한 자막 텍스트를 추출하는 단계,
텍스트 분절 기준을 기초로 상기 자막 텍스트를 분절하여 화면별 노출 텍스트를 결정하는 단계, 그리고
상기 화면별 노출 텍스트를 포함하는 자막 정보를 생성하는 단계
를 포함하고,
상기 오디오 파일을 포함하는 영상이 사용자 인터페이스 화면에서 재생되면, 상기 화면별 노출 텍스트가 상기 영상에 동기화되어 출력되는, 자막 생성 방법.
제1항에서,
상기 텍스트 분절 기준은
상기 자막 텍스트에 포함된 단어들의 단어간 발화 시간 간격, 상기 자막 텍스트에 포함된 분절 지점 결정 형태소의 위치, 그리고 한 화면에 노출되는 최대 글자 수 중 적어도 하나를 포함하는 자막 생성 방법.
제1항에서,
사용자 단말로부터 상기 오디오 파일을 수신하는 단계, 그리고
상기 자막 정보를 상기 사용자 단말로 전송하는 단계
를 더 포함하는, 자막 생성 방법.
제1항에서,
상기 화면별 노출 텍스트를 결정하는 단계는
상기 자막 텍스트에서 단어간 발화 시간 간격을 계산하고, 상기 단어간 발화 시간 간격이 기준값보다 긴 지점에서 상기 자막 텍스트를 분절하는 자막 생성 방법.
제1항에서,
상기 화면별 노출 텍스트 중 적어도 하나의 노출 텍스트에 포함된 화자의 감정을 추론하는 단계를 더 포함하고,
상기 자막 정보를 생성하는 단계는
상기 화자의 감정을 나타내는 정보를 더 포함하는 자막 정보를 생성하며,
상기 영상이 상기 사용자 인터페이스 화면에서 재생되면, 상기 감정에 대응된 자막 스타일이 적용된 화면별 노출 텍스트가 상기 영상에 동기화되어 출력되는 자막 생성 방법.
제5항에서,
상기 화자의 감정을 추출하는 단계는
특정 감정을 나타내는 단어로 등록된 감정 표현 단어들, 행동이나 감정을 표현하는 문장 성분으로 등록된 감정 표현 문장 성분들, 그리고 특정 감정으로 분류되는 텍스트의 내포 성격들 중 적어도 하나를 포함하는 감정 판단 조건을 기초로 상기 화면별 노출 텍스트 중 적어도 하나의 노출 텍스트에 포함된 화자의 감정을 추출하는 자막 생성 방법.
제1항에서,
자막 정보를 수정할 수 있는 사용자 인터페이스 화면을 제공하는 단계, 그리고
상기 사용자 인터페이스 화면에서 입력된 수정 정보를 기초로 상기 자막 정보를 업데이트하는 단계
를 더 포함하는 자막 생성 방법.
프로세서에 의해 동작하기 위해 컴퓨터 판독 가능한 저장매체에 저장된 프로그램으로서,
마이크에 의해 획득된 오디오 파일을 자막 생성 서버로 전송하는 단계,
상기 자막 생성 서버로부터 상기 오디오 파일에 대한 자막 정보를 수신하는 단계, 그리고
상기 자막 정보에 포함된 자막 텍스트를 사용자 인터페이스 화면에서 재생되는 비디오 영상과 함께 출력하는 단계
를 실행하는 명령어들을 포함하고,
상기 비디오 영상은 상기 마이크와 동시에 활성화된 카메라에 의해 촬영된 영상인 프로그램.
제8항에서,
상기 자막 정보는 상기 자막 텍스트에 적용할 자막 스타일을 더 포함하고,
상기 출력하는 단계는
상기 자막 텍스트를 상기 자막 스타일에서 지정된 디자인 양식으로 꾸며서 출력하는, 프로그램.
제8항에서,
상기 자막 스타일은 감정별 자막 스타일 중에서 상기 자막 텍스트에 포함된 화자의 감정에 대응하여 추출되는 프로그램.
제8항에서,
상기 출력하는 단계는
상기 사용자 인터페이스 화면에 사용자가 선택할 수 있는 복수의 자막 스타일을 표시하는 단계, 그리고
상기 사용자 인터페이스 화면에서 특정 자막 스타일이 선택되면, 상기 자막 텍스트에 상기 특정 자막 스타일이 적용된 자막을 상기 비디오 영상과 함께 출력하는 단계
를 포함하는 프로그램.
제11항에서,
상기 복수의 자막 스타일 중 적어도 하나는 특정 방송 프로그램에서 사용되는 자막 특징을 표현하는 자막 스타일인 프로그램.
제8항에서,
상기 사용자 인터페이스 화면에 사용자가 상기 자막 정보를 수정할 수 있는 수정 화면을 표시하는 단계,
상기 수정 화면에서 입력된 수정 정보를 상기 자막 정보에 적용하여 상기 자막 정보를 업데이트하는 단계, 그리고
상기 업데이트된 자막 정보에 포함된 자막 텍스트를 상기 비디오 영상과 함께 출력하는 단계
를 더 실행하는 명령어들을 포함하는 프로그램.
적어도 하나의 프로세서에 의해 동작하는 사용자 단말의 자막 생성 방법으로서,
텍스트에 포함된 감정에 따라 적용되는 감정별 자막 스타일을 저장하는 단계,
자막 텍스트에 포함된 화자의 감정을 확인하는 단계,
상기 감정별 자막 스타일에서 상기 화자의 감정에 대응되는 감정 자막 스타일을 추출하는 단계, 그리고
상기 자막 텍스트에 상기 감정 자막 스타일이 적용하여 생성된 자막을 영상에 동기화하여 사용자 인터페이스 화면에서 출력하는 단계
를 포함하는 자막 생성 방법.
제14항에서,
상기 화자의 감정을 확인하는 단계는
마이크에 의해 획득된 오디오 파일을 자막 생성 서버로 전송하는 단계,
상기 자막 생성 서버로부터 상기 오디오 파일에 포함된 자막 텍스트와 상기 화자의 감정을 포함하는 자막 정보를 수신하는 단계, 그리고
상기 자막 정보에서 상기 자막 텍스트와 상기 화자의 감정을 추출하는 단계
를 포함하는 자막 생성 방법.
제14항에서,
상기 자막 텍스트를 수정할 수 있는 사용자 인터페이스 화면을 제공하는 단계, 그리고
상기 사용자 인터페이스 화면에서 수정된 정보를 기초로 상기 자막 텍스트를 업데이트하는 단계
를 더 포함하는 자막 생성 방법.
제14항에서,
상기 감정 자막 스타일을 수정할 수 있는 사용자 인터페이스 화면을 제공하는 단계, 그리고
상기 사용자 인터페이스 화면에서 수정된 정보를 기초로 상기 자막 텍스트에 적용될 자막 스타일을 업데이트하는 단계
를 더 포함하는 자막 생성 방법.