KR102351400B1

KR102351400B1 - 동영상 자막제공 서비스 방법

Info

Publication number: KR102351400B1
Application number: KR1020210039710A
Authority: KR
Inventors: 이광선
Original assignee: 이광선
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-01-13

Abstract

본 발명에 따른 동영상 번역자막제공 서비스 방법은 동영상의 제1 언어의 음성신호로부터 자막문장을 획득하고, 상기 자막문장의 각 어절에 대해 대응되는 음성신호의 시작시간정보 및 종료시간정보를 매칭시켜 제1 타임테이블을 생성하는 단계; 상기 제1 언어의 글자단위 배수로 설정된 자막 표시단위에 기초하여, 상기 자막문장을 상기 제1 언어의 어절단위로 그루핑된 복수의 자막그룹으로 분할하고, 상기 제1 타임테이블을 참조하여 상기 복수의 자막그룹 각각에 대한 시작 및 종료시간정보를 포함하는 제2 타임테이블을 생성하는 단계; 상기 자막문장을 제2 언어로 번역하여 번역문장을 생성하는 단계; 및 상기 제2 언어의 글자단위의 배수로 설정된 번역자막 표시단위에 기초하여, 상기 제2 언어의 어절단위로 그루핑된 복수의 번역 자막그룹으로 분할하고, 상기 복수의 번역 자막그룹을 상기 제1 타임테이블 인터벌 동안 순차적으로 표시하도록 상기 번역 자막그룹 각각에 대한 시작시간정보 및 종료시간정보를 포함하는 제3 타임테이블을 생성하는 단계를 포함할 수 있다.

Description

동영상 자막제공 서비스 방법{service method of automatically generating subtitles of video contents}

본 발명은 동영상의 자막을 제공하는 서비스 방법에 관한 것으로, 보다 상세하게는, 동영상의 음성신호로부터 자막을 자동으로 획득하고, 자막에 대한 번역을 통하여 번역자막을 획득하며, 동영상 재생시 설정된 방식에 따라 자막 및 번역자막을 제공하기 위한 서비스 방법에 관한 것이다.

최근 유튜브, 틱톡 등와 같이 사용자가 직접 생성한 컨텐츠를 취급하는 미디어 서비스가 급격히 확산되고 있다. 이러한 미디어 서비스에 의하여 제공되는 컨텐츠는 동영상이 대부분을 차지하는데, 동영상에 포함된 음성신호를 자막으로 제공하는 기술에 대한 연구와 관심 역시 크게 증가하고 있다.

통상적으로 동영상의 자막은 작업자가 동영상의 음성을 듣고 작성하거나 동영상의 음성신호에 대한 음성인식(STT: Speech To Text) 결과에 기초하여 획득된다. 전자의 경우 매우 많은 시간과 비용 및 노력이 필요다. 그리고 양자 모두는 동영상 재생시 획득된 자막을 음성신호와 동기시켜 표시하는 데에는 어려움이 있으며, 미디어 서비스에 따라 획일화된 길이로먼 자막을 제공할 수 있는 한계가 있다.

한편, 인터넷의 발달로 인하여 미디어 서비스에 의하여 제공되는 동영상은 제작된 언어가 아닌 다른 언어를 사용하는 글로벌 사용자들에 의해서도 널리 재생되는데, 동영상의 자막에 대한 번역자막에 대한 관심과 요구가 높다. 일부 미디어 서비스에서는 번역자막이 제공되고 있으나 그 수준이 소비자들을 만족시킬 정도에 이르지 못하였고, 보다 높은 수준의 번역자막을 위해서는 그에 따른 대가를 감수해야만 하는 것이 현실이다.

이에 본 발명이 해결하고자 하는 기술적 과제는, 동영상의 음성신호에 기초하여 자막을 생성하고, 생성된 자막을 동영상 재생시 음성신호에 동기시켜 제공할 수 있는 동영상 자막의 자동생성 및 번역서비스 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 기술적 과제는, 동영상의 음성신호에 기초하여 생성된 자막을 다른 언어로 번역한 번역자막을 제공할 수 있는 동영상 자막의 자동생성 및 번역서비스 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 또 다른 기술적 과제는, 동영상의 음성신호에 기초하여 생성되는 자막에 대한 번역자막을 생성하는 과정에서 번역오류를 수정할 수 있는 단계를 제공하는 동영상 자막의 자동생성 및 번역서비스 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 또 다른 기술적 과제는, 동영상의 음성신호에 기초하여 생성되는 자막과 그 번역자막이 표시되는 단위를 자유자재로 조절할 수 있는 동영상 자막의 자동생성 및 번역서비스 방법을 제공하는 것이다.

본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한 본 발명에 따른 동영상 자막제공 서비스 방법은, 동영상의 제1 언어의 음성신호로부터 자막문장을 획득하되, 상기 자막문장의 각 어절에 대해 대응되는 음성신호의 시작시간정보 및 종료시간정보를 매칭시켜 제1 타임테이블을 생성하는 단계; 상기 제1 언어의 글자단위의 배수로 설정된 자막 표시단위에 기초하여, 상기 자막문장을 상기 제1 언어의 어절단위로 그루핑된 복수의 자막그룹으로 분할하고, 상기 제1 타임테이블을 참조하여 상기 복수의 자막그룹 각각에 대한 시작 및 종료시간정보를 포함하는 제2 타임테이블을 생성하는 단계; 및 상기 동영상 재생시, 자막표시 모드에서, 상기 복수의 자막그룹을 상기 제2 타임테이블에 따라 자막그룹 단위로 상기 음성신호에 동기시켜 순차적으로 표시하도록 설정하는 단계를 포함할 수 있다.

상기 동영상 자막제공 서비스 방법은, 상기 자막 표시단위에 대응되는 상기 제1 언어의 글자단위의 배수를 변경하는 단계를 더 포함할 수 있다.

상기 자막문장을 상기 복수의 자막그룹으로 분할함에 있어서, 상기 자막 표시단위에 따른 마지막 위치가 특정 어절의 특정 글자까지인 경우, 상기 특정 어절까지를 하나의 자막그룹으로 그루핑할 수 있다.

상기 자막문장을 상기 복수의 자막그룹으로 분할함에 있어서, 상기 자막 표시단위에 따른 마지막 위치가 특정 어절의 특정 글자까지인 경우, 상기 특정 어절에서 상기 특정 글자까지의 글자수가, 상기 특정 어절의 글자수의 1/2 이상이면 상기 특정 어절까지를 하나의 자막그룹으로 그루핑하고, 상기 특정 어절의 글자수의 1/2 미만이면 상기 특정 어절 이전의 어절까지를 하나의 자막그룹으로 그루핑할 수 있다.

상기 동영상 자막제공 서비스 방법은, 상기 복수의 자막그룹을 상기 음성신호에 동기시켜 상기 동영상과 함께 순차적으로 표시하는 제1 영역과 상기 복수의 자막그룹 리스트를 시간순으로 나열하여 표시하는 제2 영역을 사용자 단말기로 제공하는 단계; 상기 사용자 단말기에서 상기 제1 및 제2 영역 중 어느 하나에 표시된 특정 자막그룹 특정어절이 선택되면, 자막 수정기능을 활성화하는 단계; 및 상기 특정어절의 위치를 통하여 입력되는 문자에 따라 상기 제1 및 제2 영역 모두에 표시된 상기 특정 제1 자막그룹을 수정하는 단계를 더 포함할 수 있다.

상기 제1 및 제2 영역 중 어느 하나에 표시된 상기 특정 자막그룹 상기 특정위치의 선택은, 상기 제1 영역에서 상기 동영상이 재생 중인 상태와 재상이 중단된 상태 모두에서 가능하다. 상기 동영상 자막의 자동생성 및 번역서비스 방법은, 상기 제1 영역에서 상기 동영상이 재생 중인 상태에서 상기 특정 위치가 선택되면, 상기 동영상의 재생을 중단하는 단계를 더 포함할 수 있다.

상기 동영상 자막의 자동생성 및 번역서비스 방법은, 상기 사용자 단말기에서 상기 제1 및 제2 영역 중 어느 하나에 표시된 특정 자막그룹 특정위치가 선택되면, 상기 제1 및 제2 영역 중 나머지 하나에 표시된 특정 자막그룹의 특정위치가 함께 선택되는 단계를 더 포함할 수 있다.

상기 동영상 자막제공 서비스 방법, 상기 제1 영역에서 상기 동영상이 재생되는 상태에서는, 상기 제1 및 제2 영역에 표시된 특정 자막그룹에 포함된 어절이 상기 제2 타임테이블에 따라 상기 음성신호에 동기되어 순차적으로 선택되는 단계를 더 포함할 수 있다.

본 발명에 따른 동영상 자막제공 서비스 방법에 따르면, 동영상의 음성신호에 기초하여 자막을 자동 생성하고, 생성된 자막을 동영상 재생시 음성신호에 동기시켜 제공할 수 있다.

그리고 본 발명에 따른 동영상 자막제공 서비스 방법에 따르면, 동영상의 음성신호에 기초하여 생성된 자막을 자동으로 다른 언어로 번역하여 번역자막을 제공할 수 있다.

또한, 본 발명에 따른 동영상 자막제공 서비스 방법에 따르면, 동영상의 음성신호에 기초하여 생성되는 자막에 대한 번역자막을 생성하는 과정에서 번역오류를 수정할 수 있다.

또한, 본 발명에 따른 동영상 자막제공 서비스 방법에 따르면, 동영상의 음성신호에 기초하여 생성되는 자막과 그 번역자막이 표시되는 단위를 자유자재로 조절할 수 있다.

도 1은 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법을 제공하기 위한 서비스 시스템(10)의 구성도이다.
도 2는 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법을 나타내는 흐름도이다.
도 3 내지 도 11은 도 2에 도시된 동영상 자막/번역자막제공 서비스 방법에 따라, 동영상의 자막문장이 제공되는 방식들을 설명하기 위한 도면들이다.
도 3은 서비스 서버(20)에 의하여 자막제공의 대상이 되는 동영상(이하 '타겟 동영상'이라 함)의 음성 신호로부터 자막문장들이 획득되는 것을 나타낸다.
도 4는 도 3의 자막문장 1에 대해 서비스 서버(20)가 생성한 제1 타임테이블을 나타낸다.
도 5는 도 4의 제1 타임테이블에 따라 자막문장 1이 복수의 자막그룹으로 분할된 결과이다.
도 6은 도 5의 복수의 자막그룹이 어절단위로 그루핑되는 방식을 설명하기 위한 도면이다.
도 7은 상술한 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법에 따라, 서비스 서버(20)가 자막문장들을 복수의 자막그룹으로 분할한 다음 이를 이용자 단말기(30)로 제공하는 예를 나타내는 GUI(100)이다.
도 8은 도 7에 도시된 GUI(100)에서 자막 표시단위 설정 영역(131)을 통하여 자막(한글) 표시단위가 "10"에서 "7"로 변경된 경우, 자막문장들에 대한 자막문장 분할 및 디스플레이가 변경되는 것을 나타낸다.
도 9는 도 4의 제1 타임테이블에 따라 자막문장 1이, 자막 표시단위인 "7"에 기초하여, 복수의 자막그룹으로 분할된 결과이고, 도 10은 도 9의 복수의 자막그룹이 어절단위로 그루핑되는 방식을 설명하기 위한 도면이다.
도 11은 본 발명의 다른 실시예에 따라 자막문장 1이 자막 표시단위인 "7"에 기초하여, 복수의 자막그룹으로 분할되는 방식을 설명하기 위한 도면이다.
도 12는 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법에 따라 제공되는 자막을 수정하는 방식의 일예를 나타내는 흐름도이다.
도 13a 내지 도 13d는, 도 12에 도시된, 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법에 따라 제공되는 GUI(100)를 통하여 자막을 수정하는 방법의 일예를 설명하기 위한 것이다.
도 14a 및 14b는, 도 12에 도시된, 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법에 따라 제공되는 GUI(100)를 통하여 자막을 수정하는 방법의 다른 예를 설명하기 위한 것이다.
도 15는, 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법에 따라, 도 13c 상태에서 커서를 이동하여 자막 수정하는 예를 나타낸다.
도 16은 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법을 나타내는 흐름도이다.
도 17은 도 16에 도시된 동영상 자막/번역자막제공 서비스 방법에 따라, 서비스 서버(20)가 번역문장들을 복수의 번역 자막그룹으로 분할한 다음 이를 이용자 단말기(30)로 제공하는 예를 나타내는 GUI(100')이다.
도 18은, 도 16에 도시된 동영상 자막/번역자막제공 서비스 방법에 따라, 자막문장(123)의 수정이 번역문장(124) 및 역번역문장(125)에 반영되는 예를 설명하기 위한 도면이다.
도 19는, 도 16에 도시된 동영상 번역자막제공 서비스 방법에 따라, 자막/번역자막 공통표시 모드(즉, 이중 자막 모드)에서 자막문장과 번역문장이 제공되는 것을 설명하기 위한 GUI(100")이다.
도 20은 본 발명에 따른 동영상 자막/번역자막 제공방법에 따라 자막의 스타일을 설정하기 위한 자막 설정 영역(130)의 일예를 나타낸다.
도 21은 본 발명에 따라 동영상 재생 중 자막을 수정하는 과정의 일예를 설명하기 위한 것이다.
도 22a 및 도 22b는 본 발명에 따른 자막/번역자막 제공 서비스 방법에 따라 자막그룹을 병합하는 예를 나타내는 도면이다.

본 발명과 본 발명의 동작상 또는 기능상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낼 수 있다.

도 1은 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법을 제공하기 위한 서비스 시스템(10)의 구성도이다. 상기 서비스 시스템(10)은 서비스 서버(20), 이용자 단말기(30), 동영상 제공 서버(40), 소비자 단말기(50) 및 회원 단말기(60)를 포함한다.

상기 서비스 서버(20)는 상기 이용자 단말기(30)로부터 요청받은 동영상의 음성신호를 STT(Speech To Text) 변환하여 자막을 생성하고, 상기 자막을 상기 동영상의 음성신호에 동기시켜 제공하도록 설정할 수 있다. 이용자는 이러한 설정 결과를 상기 동영상 제공 서버(40)로 업로드할 수 있다.

상기 동영상은 상기 이용자 단말기(30)에 저장되어 있는 것일 수도 있고, 상기 이용자 단말기(30)가 아니나 상기 이용자 단말기(30)로부터 지정되는 경로(예컨대, 유튜브 동영상의 URL)에 저장된 것일 수도 있다.

상기 서비스 서버(20)는 상기 이용자 단말기(30)로부터 요청받은 동영상에 대한 자막을 다른 종류의 언어로 번역한 번역자막을 상기 동영상의 재생에 맞추어 출력하도록 설정할 수 있다. 즉, 상기 서비스 서버(20)는 상기 번역자막이 원래의 자막이 제공될 시간에 매칭되어 제공되도록 설정할 수 있다. 이용자는 이러한 설정 결과를 상기 동영상 제공 서버(40)로 업로드할 수 있다.

그러므로 상기 서비스 서버(20)의 이용자는 대상 동영상을 상기 서비스 서버(20)로 제공하여 요청하는 것만으로 동영상에 대한 자막 및 번역자막을 용이하게 획득할 수 있다. 물론, 상기 이용자 단말기(30)를 통하여 상기 서비스 서버(20)에 의하여 획득된 동영상의 자막 또는 번역 자막에 대한 수정, 편집 등이 이루어질 수도 있다.

한편, 상기 서비스 서버(20)는 자막과 번역자막이 동영상과 함께 제공되는 경우, 설정에 따라 상기 자막과 번역자막이 표시되는 단위를 조절할 수 있다. 예컨대, 상기 서비스 서버(20)는 한 번에 표시되는 자막과 번역자막의 글자수를 독립적으로 조절할 수 있다. 이에 대해서는 향후 보다 상세히 살펴본다.

상기 동영상 제공 서버(40)는, 유튜브(youtube)와 같이, 동영상 제공 서비스를 수행하는 서버일 수 있다. 상기 서비스 서버(20)는 상기 이용자 단말기(30)의 요청에 따라 동영상과 함께 그에 매칭되어 있는 자막 및 번역자막을 상기 동영상 제공 서버(40)로 업로드할 수 있다.

그러면 상기 동영상 제공 서버(40)는, 상기 소비자 단말기(50)의 요청에 응답하여 업로드된 동영상을 매칭된 자막 및 번역자막과 함께 상기 소비자 단말기(50)로 제공할 수 있다. 물론, 상기 소비자 단말기(50)의 요청에 따라 동영상의 자막 및 번역자막의 제공여부는 선택적일 수 있다.

이상에서 살펴본 바와 같이, 본 발명은 기본적으로 상기 서비스 서버(20)에 의하여 수행되는 동영상에 대한 자막의 획득과 그 제공에 대한 설정방법에 관한 것이며, 나아가 자막에 대한 번역자막의 획득과 그 제공방식에 대한 설정방법에 관한 것이다.

만약, 상기 이용자 단말기(30)에 상술한 서비스 서버(20)의 기능 또는 역할을 수행하기 위한 소프트웨어가 탑재되어 있으면, 동영상의 자막 및 번역자막의 획득은 상기 이용자 단말기(30)에서 이루어질 수 있다. 이때에는 동영상과 그에 매칭된 자막 및 번역자막의 상기 동영상 제공 서버(40)로의 업로드는 상기 이용자 단말기(30)에 의하여 이루어질 수도 있다.

한편, 상기 회원 단말기(60)는 상기 이용자 단말기(30)와 같이 동영상에 대한 자막 서비스를 제공받기 위하여 등록한 회원의 단말기일 수 있다. 그리고 상기 회원 단말기(60)는 상기 서비스 서버(20)와의 연동을 통하여 상기 서비스 서버(20)에서 제공하는 자막 및 번역자막 서비스의 수행과 관련된 기능을 수행할 수도 있다.

예컨대, 상기 회원 단말기(60)는 상기 서비스 서버(20)에 의하여 획득된 동영상의 자막 또는 번역 자막에 대한 수정, 편집 등의 보조적 역할을 수행할 수 있다. 이때, 이러한 역할을 수행에 대해서는 상기 이용자 단말기(30) 및/또는 상기 서비스 서버(20)에 의하여 미리 설정되어 있는 보상이 상기 회원 단말기(60)로 제공될 수 있다.

도 2는 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법을 나타내는 흐름도이다.

먼저, 서비스 서버(20)는 이용자 단말기(30)의 요청에 따라 제공되는 동영상의 제1 언어 음성신호를 STT 변환하여 자막문장을 획득한다(S100). 상기 동영상은 상기 서비스 서버(20)에 접속한 이용자 단말기(30)에 저장된 것일 수 있고, 상기 이용자 단말기(30)에서 지정한 인터넷주소에 저장된 동영상(예컨대, 유튜브 동영상)일 수도 있다.

자막문장이 획득되면, 상기 서비스 서버(20)는 상기 자막문장의 각 어절에 대해 대응되는 음성신호 부분의 시작시간정보 및 종료시간정보를 매칭시켜 제1 타임테이블을 생성한다(S110). 그런 다음, 상기 서비스 서버(20)는 상기 자막문장에 대해 설정된 자막 표시단위에 기초하여 상기 자막문장을 상기 제1 언어의 어절단위로 그루핑된 복수의 자막그룹으로 분할한다(S120).

여기서 상기 제1 언어의 어절단위라 함은 상기 제1 언어의 띄어쓰기 단위일 수 있다. 그리고 상기 복수의 자막그룹은 상기 자막문장에 포함된 복수의 어절 중 적어도 하나의 어절을 포함할 수 있다.

상기 자막 표시단위는 상기 이용자 단말기(30)에 의하여 설정된 것일 수 있고, 상기 서비스 서버(20)에 의하여 디폴트로 설정된 것일 수도 있다. 그리고 상기 자막 표시단위는 향후 최종 자막이 획득된 다음에 변경될 수도 있다.

상기 자막표시 단위는 상기 제1 언어의 글자 단위의 배수일 수 있다. 예컨대, 상기 자막표시 단위는, 상기 제1 언어가 한국어인 경우에는 자음과 모음으로 이루어진 글자의 개수일 수 있고, 상기 제1 언어가 영어인 경우에는 알파벳 개수일 수 있고, 상기 제1 언어가 중국어인 경우에는 한자 한글자의 개수일 수 있다.

상기 자막 표시단위는 숫자를 제1 언어의 글자 단위로 취급할 수 있다. 상기 자막 표시단위는 띄어쓰기 위한 공란이나 부호를 포함할 수도 있고 그렇지 않을 수도 있다.

상기 자막문장을 복수의 자막그룹으로 분할한 다음, 상기 서비스 서버(20)는 상기 복수의 자막그룹 각각에 대한 시작시간정보 및 종료시간정보를 포함하는 제2 타임테이블을 생성한다(S130). 상기 제2 타임테이블에서 특정 자막그룹의 시작시간정보는 상기 특정 자막그룹에 포함되는 복수의 어절 중 첫 어절의 시작시간정보일 수 있고, 상기 특정 자막그룹의 종료시간정보는 상기 특정 자막그룹에 복수의 어절 중 마지막 어절의 종료시간정보일 수 있다.

한편, 복수의 자막그룹 각각에 포함되는 어절들의 시작시간정보와 종료시간정보는 상기 제1 타임테이블로부터 획득될 수 있다. 만약, 특정 자막그룹에 하나의 특정 어절만 포함되는 경우, 상기 특정 자막그룹의 시작시간정보와 종료시간정보는 상기 제1 타임테이블에서 상기 특정 어절의 시작시간정보와 종료시간정보일 수 있다.

상기 제2 타임테이블이 생성된 다음, 상기 서비스 서버(20)는 상기 동영상이 재생되는 경우, 상기 복수의 자막그룹을 자막그룹 단위로 상기 제2 타임테이블에 따라 상기 동영상의 음성신호에 동기시켜 순차적으로 표시하도록 설정한다(S140).

그러면, 사용자는 상술한 과정에 따른 동영상에 대한 자막 설정 결과를 상기 동영상 제공 서버(40)에 업로드할 수 있으며, 소비자는 상기 동영상 제공 서버(40)를 통하여 상기 동영상의 재생되면 설정에 따른 자막을 제공받을 수 있다.

상기 음성신호에 상기 복수의 자막그룹을 동기시키는 방법에는 여러 가지가 있을 수 있다. 첫 번째, 특정 자막그룹을 한 번에 화면에 표시한 다음 대응되는 음성신호 부분이 출력되는 동안 화면에 표시할 수 있다. 두 번째, 특정 자막 그룹을 첫 번째와 같이 표시한 다음 출력되는 음성신호 부분에 대응되는 어절을 다르게 표시할 수 있다. 그러나 본 발명의 범위가 상술한 예들로 한정되는 것은 아니다.

도 3 내지 도 11은 도 2에 도시된 동영상 번역자막제공 서비스 방법에 따라, 동영상의 자막문장이 제공되는 방식들을 설명하기 위한 도면들이다.

도 3은 서비스 서버(20)에 의하여 자막제공의 대상이 되는 동영상(이하 '타겟 동영상'이라 함)의 음성 신호로부터 자막문장들이 획득되는 것을 나타낸다.

자막문장에는 대응되는 음성신호 문장의 시작/종료시간정보가 매칭된다. 이는 상기 자막문장이 상기 대응되는 음성신호 문장의 제공이 시작되고 종료되는 시간에 기초하여 자막으로 제공되는 것을 의미한다. 도면에 도시되지는 않았으나, 자막문장을 구성하는 어절들 각각은 음성신호 문장에서 대응되는 어절의 시작/종료시간정보에 매칭된다.

참고로 자막문장 1에는 STT 변환에 오류가 없으나, 자막문장 2에서는 2 부분의 STT 변환 오류 "이후 --> 유"와 "소통수단을 --> 소통수단 해"가 있는 것을 알 수 있다. 그리고 설명의 편의를 위하여 도 3에서는 마침표나 쉼표 등의 부호는 생략하였다. 그러나 본 발명의 다른 구현예에서는 이러한 부호가 포함될 수도 있다. 이는 자막문장뿐만 아니라 향후 살펴볼 번역자막문장에서도 마찬가지이다.

이하에서는 자막문장 1을 대상으로 하여 자막문장이 복수의 자막그룹으로 나누어져 제공되도록 설정되는 과정을 보다 구체적으로 살펴보고, 향후에는 자막문장 2의 오류를 수정하는 방법에 대해서도 살펴본다.

도 4는 도 3의 자막문장 1에 대해 서비스 서버(20)가 생성한 제1 타임테이블을 나타낸다.

도 4를 참조하면, 상기 제1 타임테이블에는 자막문장의 각 어절에 대해 시작/종료시간정보가 매칭되어 있는 것을 알 수 있다. 상기 각 어절의 시작/종료시간정보는 음성신호에서 대응되는 어절의 시간/종료시간정보에 대응된다. 한편, 도 4의 타임테이블에서는 초 단위의 소수점까지 상세히 제공되어 있으나, 향후 이를 활용하는 예들에서는 특별한 경우가 아니면 초 단위의 소수점은 생략한다.

도 5는 도 4의 제1 타임테이블에 따라 자막문장 1이, 자막 표시단위인 한글 "10글자"에 기초하여, 복수의 자막그룹으로 분할된 결과이고, 도 6은 도 5의 복수의 자막그룹이 어절단위로 그루핑되는 방식을 설명하기 위한 도면이다.

참고로, 적용되는 자막 표시단위에서 어절 사이의 띄어쓰기 부분은 자막 표시단위를 구성하는 한글 글자단위 배수에서 제외된다. 자막표시 단위에 따라 자막문장 1은 자막그룹 1 내지 자막그룹 3으로 분할되는데, 각 자막그룹은 시작/종료시간정보는 첫 번째 어절의 시작시간정보와 마지막 어절의 종료시간정보에 해당된다. 이는 향후 살펴볼 예들에도 동일하게 적용될 수 있다.

자막그룹 1과 자막그룹 2는 한글 10글자로 이루어져 있으나, 자막그룹 3은 4번째 어절에서 한글 10글자를 넘어 한글 13글자로 이루어진다. 이는 한글 10글자를 정확히 적용할 경우 자막그룹 3은 "그야말로 ... 자체였"으로 마무리가 되고, "습니다"는 다음 자막그룹 4에 포함되는 부자연스러운 결과를 방지하기 위함이다.

즉, 본 발명에서는 자막문장을 복수의 자막그룹으로 분할함에 있어서, 자막 표시단위에 따른 마지막 위치가 특정 어절의 특정 글자까지인 경우에는, 특정 어절까지를 하나의 자막그룹으로 그루핑하는 것을 특징으로 한다. 예컨대, 자막그룹 3에서 자막 표시단위에 따른 마지막 위치가 4번째 어절의 첫 글자인 "자"인 경우를 가정하더라도 자막그룹 3은 "자체였습니다" 전체를 포함하도록 그루핑되는 것이다.

도 7은 상술한 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법에 따라, 서비스 서버(20)가 자막문장들을 복수의 자막그룹으로 분할한 다음 이를 이용자 단말기(30)로 제공하는 예를 나타내는 GUI(100)이다. 보다 구체적으로 상기 GUI(100)는 한글자막 제공관련 편집, 설정 등을 위한 것이다.

상기 GUI(100)는 제1 영역(110), 제2 영역(120) 및 제3 영역(130)을 포함한다. 상기 제1 영역(110)에는 동영상(111)과 자막(112)이 표시될 수 있다. 상기 제1 영역(110)에서, 자막은, 자막문장을 복수의 자막그룹으로 나누고 나누어진 자막그룹을 음성신호에 동기시켜 출력하는 형태로 제공될 수 있다.

상기 제2 영역(120)에는 자막문장을 구성하는 자막그룹 리스트를 시간순으로 나열되어 표시될 수 있다. 이때, 자막그룹 각각에는 대응되는 시작/종료시간정보가 함께 제공될 수 있다. 상기 제2 영역(120)은 자막그룹 리스트를 제공하는 자막 제공 영역(121), 자막의 종류를 선택하기 위한 자막 선택 영역(122)을 포함한다.

도 7은 상기 제1 영역(110)에는 자막 문장 1의 자막그룹 1이 제공되고 있고, 상기 제2 영역(120)에 표시된 자막그룹 리스트 중 자막문장 1의 자막그룹 1이 다른 자막그룹과는 식별되도록 음영처리된 것을 나타낸다. 이후 상기 제1 영역(110)에 자막그룹 2가 제공되는 경우에는 상기 제2 영역(120)에서는 상기 자막그룹 2가 음영처리된다.

그리고 상기 제1 영역(110)에서 상기 자막그룹 1의 첫 번째 어절 "지난"은 음영 처리되어 있는데, 이는 음성신호에 동기된 어절임을 나타내는 것으로, 현재 동영상과 함께 음성신호 "지난"이 출력되고 있는 것을 나타낸다. 이때, 상기 제2 영역(120)에서도 자막그룹 1(121-1)의 어절 "지난"이 음영처리된다.

음영처리는 음성신호에 동기되어 수행되므로, 상기 제1 영역(110)에서 음절 "지난"에 대해 음영처리 상태가 유지되는 시간은 음성신호 "지난"의 시작/종료시간정보에 대응되는 "00:05 - 00:06" 초 동안이다(도 4 참조). 이는 상기 제2 영역(120)에서도 마찬가지이다.

그 후 동영상이 계속 재생되면, 음성신호에 동기되어 두 번째 음절 "2007"년"이 음영처리된 다음 세 번째 음절 "스티브"가 음영처리될 것이다. 이들의 음영처리 유지시간 역시 대응되는 음성신호의 출력시간에 매칭되어 있다. 이 또한, 상기 제2 영역(120)에서도 마찬가지이다.

상기 제3 영역(130)은 자막으로 제공되는 문자에 대해 굵기, 기울기, 밑줄, 하이일라이트 등의 효과를 부여하거나, 상기 제1 영역(110)에서 자막이 표시되는 영역을 조정할 수 있는 자막 스타일링 영역이다. 그리고 상기 제3 영역(130)은 자막표시 단위를 설정 또는 변경하기 위한 자막 표시단위 설정 영역(131)을 포함할 수 있다. 상기 제3 영역(130)에 대해서는 향후 별도의 도면을 통하여 보다 상세히 살펴본다.

도 8은 도 7에 도시된 GUI(100)에서 자막 표시단위 설정 영역(131)을 통하여 자막(한글) 표시단위가 "10"에서 "7"로 변경된 경우, 자막문장들에 대한 자막문장 분할 및 디스플레이가 변경되는 것을 나타낸다. 참고로, 본 발명에서 자막 표시단위의 변경은 한글의 글자단위의 배수를 변경하는 것을 의미한다.

도 9는 도 4의 제1 타임테이블에 따라 자막문장 1이, 자막 표시단위인 "7"에 기초하여, 복수의 자막그룹으로 분할된 결과이고, 도 10은 도 9의 복수의 자막그룹이 어절단위로 그루핑되는 방식을 설명하기 위한 도면이다.

자막그룹 1은 자막 표시단위에 따른 위치가 2개의 어절의 마지막에 해당되므로 상기 2개의 어절로 그루핑된다. 그러나 자막그룹 2 내지 자막그룹 4 각각은 자막 표시단위에 따른 위치가 마지막 어절의 특정 글자까지이므로 마지막 어절까지 포함하는 것으로 그루핑된다.

이는 앞서 도 5 및 도 6을 참조하여 설명한 바와 같은 방식이다. 한편, 자막문장 2의 경우에도 이러한 방식에 의하여 복수의 자막그룹으로 분할되어 제공된다.

도 11은 본 발명의 다른 실시예에 따라 자막문장 1이 자막 표시단위인 "7"에 기초하여, 복수의 자막그룹으로 분할되는 방식을 설명하기 위한 도면이다.

자막그룹 1은 7글자로 이루어진 2개의 어절로 그루핑된다. 자막그룹 1에 이어지는 자막그룹 2는 자막 표시단위에 따른 마지막 위치가 어절 "선보인"의 "선"까지이다. 그러나 "선"까지의 글자수가 어절에서의 글자수의 1/2 미만이므로 자막그룹 2는 이전 어절까지를 그루핑한 2개의 어절 "스티브 잡스가"로 그루핑된다.

자막그룹 3 및 4는 자막 표시단위에 "7"에 따라 7글자로 이루어진 2개의 어절과 3개의 어절로 그루핑된다. 한편, 자막그룹 5의 경우 6개의 글자로 마무리된다. 자막문장 5는 자막문장 1의 마지막 어절이므로 자막 표시단위에 따른 글자수 카운팅은 마무리된다. 왜냐하면, 그 다음은 자막문장 2에 해당되기 때문에 새로운 카운팅이 시작되어야 하기 때문이다.

도 11을 참조하여 살펴본 자막문장 분할 방식을 요약하면 다음과 같다.

(1) 자막문장에서 자막 표시단위에 따른 마지막 위치가 특정 어절의 특정 글자까지인데, 상기 특정 어절에서 상기 특정 글자까지의 글자수가 상기 특정 어절의 글자수의 1/2 이상이면, 상기 특정 어절까지를 하나의 자막그룹으로 그루핑한다.

(2) 그러나, 상기 특정 어절에서 상기 특정 글자까지의 글자수가 상기 특정 어절의 글자수의 1/2 미만이면 상기 특정 어절 이전의 어절까지를 하나의 자막그룹으로 그루핑한다.

도 12는 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법에 따라 제공되는 자막을 수정하는 방식의 일예를 나타내는 흐름도이다.

타겟 동영상에 대한 음성신호 분석을 통하여 자막문장이 획득된 다음, 이용자 단말기(30)에 의하여 상기 타겟 동영상이 재생되면, 상기 이용자 단말기(30)의 GUI(100)를 통하여 자막문장이 복수의 자막그룹으로 분할되어 음성신호에 동기되어 순차적으로 표시된다(S200).

이와 같은 동영상 재생 중 GUI(100)에서 동영상과 자막이 표시되는 제1 영역(110)과 자막문자의 자막그룹 리스트가 시간순으로 나열되어 표시되는 제2 영역(120) 중 어느 하나에서, 특정 자막그룹의 특정 어절이 선택된다(S210).

상기 특정 어절의 선택은 마우스를 이용한 클릭, 터치스크린을 통한 터치, 키보드의 특정 키조작 등에 의하여 이루어질 수 있다. 상기 특정 어절의 선택의 일예로, 상기 특정 어절이 음성신호에 동기되어 있는 상태에서 키보드를 통하여 특정키(예컨대, 엔터키) 조작이 포함될 수 있다.

그리고 상기 제1 영역(110) 및 상기 제2 영역(120) 중 어느 하나에서 상기 특정 어절이 선택되면, 상기 제1 영역(110) 및 상기 제2 영역(120) 중 나머지 하나에서도 대응되는 특정 어절이 선택될 수 있다.

상기 특정 어절이 선택되면, 동영상의 재생은 중단되며, 자막 수정기능이 활성화된다(S220). 이때, 상기 특정 어절은 다른 어절들과는 다르게 표시될 수 있는데, 그 방법으로는 하일라이트 처리, 밑줄 처리 등이 포함될 수 있다. 한편, 동영상 재생이 중단된 상태에서도 상기 특정 자막 그룹의 특정 어절의 선택을 통한 자막 수정기능은 활성화될 수 있다.

자막 수정기능이 활성화된 상태에서, 상기 특정 어절을 통하여 수정을 위한 문자가 입력되면(S230), 이를 반영하여 상기 제1 영역(110) 및 제2 영역(120) 모두에서 상기 특정 어절이 수정된다(S240). 수정을 위한 문자의 입력은 실제 키보드 또는 터치입력이 가능한 가상의 키보드를 통하여 이루어질 수 있다.

상기 특정 어절이 선택되면 상기 특정 자막그룹 내에서 커서의 위치가 키보드의 방향키, 마우스의 클릭, 터치스크린을 통한 터치에 의하여 이동될 수 있다. 이러한 커서의 위치 이동은 수정을 위한 문자 입력의 위치가 변경되는 것을 의미한다.

도 13a 내지 도 13d는, 도 12에 도시된, 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법에 따라 제공되는 GUI(100)를 통하여 자막을 수정하는 방법의 일예를 설명하기 위한 것이다.

도 13a는 타겟 동영상이 재생되고 이용자 단말기(30)를 통하여 제1 영역(110)과 제2 영역(120)을 통하여 자막문장 2의 자막그룹 1(112 및 121-2)이 제공되고 있으며 그 마지막 어절 "소통수단"에 대응되는 음성신호가 제공되고 있는 상태를 나타낸다. 참고로 상기 이용자 단말기(30)는 키보드와 마우스가 연결된 PC인 것을 가정한다.

도 13a 상태에서 서비스 이용자가 상기 자막그룹 1(121-2)의 첫 어절 "유"가 "이후"를 잘못 변환된 것을 확인하고 마우스를 이용하여 어절 "유"를 클릭하여 선택한다.

그러면 도 13b와 같이 상기 제2 영역(120)에서 어절 "유"가 선택됨과 동시에 동영상의 재생이 중단되고 자막 수정기능이 활성화된다. 그리고 상기 제1 영역(110)의 동영상(111)의 화면은 어절 "유"의 시작시간정보에 대응되는 화면으로 전환되고, 상기 자막(112)에서도 어절 "유"가 선택된다. "유"가 선택되는 다른 방법으로, "유"가 음성신호에 동기되어 있는 상태에서 키보드의 엔터키를 조작하는 것이 포함될 수 있다.

"유"가 선택된 상태에서, 도 13c에서와 같이, 이용자가 키보드를 통한 문자입력을 통하여 제2 영역(120)의 "유"를 "이후"로 수정한다. 그러면 상기 제1 영역(110)의 자막(112)에서도 이를 반영하여 수정이 함께 이루어진다.

도 14a 및 14b는, 도 12에 도시된, 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법에 따라 제공되는 GUI(100)를 통하여 자막을 수정하는 방법의 다른 예를 설명하기 위한 것이다.

도 14a는 타겟 동영상이 재생되고 이용자 단말기(30)를 통하여 제1 영역(110)과 제2 영역(120)을 통하여 자막문장 2의 자막그룹 1(112 및 121-2)이 제공되고 있으며 그 마지막 어절 "소통수단"에 대응되는 음성신호가 제공되고 있는 상태에서, 이용자가 상기 제1 영역(110)에 표시된 자막그룹(112)의 어절 "유"를 마우스로 클릭하는 것을 나타낸다.

그러면, 도 14b와 같이, 상기 제1 영역(110) 및 상기 제2 영역(120) 모두에서 상기 자막그룹 1(112 및 121-2)에서 "유"가 선택되어 다른 어절과 다르게 표시된다. 이는 어절 "유"를 통한 자막 수정기능이 활성화된 것을 의미한다. 상기 제2 영역(120)의 "유"를 통하여 문자가 입력되면 상기 제1 영역(110) 및 제2 영역(120)의 자막그룹 1(112 및 121-2) 모두에 대해 수정이 이루어진다.

도 15는, 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법에 따라, 도 13c 상태에서 커서를 이동하여 자막 수정하는 예를 나타낸다.

도 15의 (a)는 음성신호가 잘못 번역된 "유"를 "이후"로 수정한 도 13c의 자막그룹(121-2)을 나타낸다. 도 15의 (b)는 도 15의 (a)에서 수정이 필요한 위치로 커서를 이동하는 것을 나타낸다. 도면에 도시되지는 않았으나 커서의 위치에 대응되는 시간정보에 따라 제1 영역(110)을 통한 동영상(111)의 제공화면도 변경된다.

커서의 이동은 키보드의 오른쪽 방향키 조작을 통하여 이루어질 수 있으며, 이러한 커서의 위치는 자막 수정을 위한 문자 입력위치가 변경된 것을 의미한다. 키보드는 실제 키보드일 수도 있고 터치스크린을 통하여 제공되는 가상의 키보드일 수도 있다.

도 15의 (c)는 도 15의 (b) 상태에서 문자 입력을 통하여 어절 "소통수단"을 "소통수단을"로 수정하는 것을 나타낸다. 이러한 수정 내용은 제1 영역(110)에 표시된 자막그룹에도 반영된다.

그리고 이용자는 상기 자막그룹(121-2)에서 "소통수단"을 삭제하고, 커서를 다음 자막그룹으로 이동하여 다음 자막그룹에서 "해"를 "소통수단을"로 수정함으로써 자막그룹을 바르게 수정할 수도 있다. 한편, 자막의 수정을 위한 문자 입력 위치의 변경은 특정 어절이 선택된 상태에서도 키보드의 방향키 조작을 통하여 이루어질 수도 있다.

또한, 이용자는 제1 영역(110)에 표시된 자막그룹(112)을 통해서도 자막의 수정과 커서의 이동을 통한 자막 수정을 위한 문자 입력 위치 변경 등을 수행할 수 있다. 그리고 상기 자막그룹(112)에서의 자막수정 역시 상기 제2 영역(120)에 표시된 자막그룹(121-2)에 반영된다. 다만, 상기 제1 영역(110)에서는 상기 제2 영역(120)과 같은 자막그룹 사이의 커서 이동은 수행될 수 없을 수 있다. 왜냐하면, 상기 제1 영역(110)에는 하나의 자막그룹만 표시될 수 있기 때문이다.

이상의 내용을 요약하면, 상기 제2 영역(120)에서는 특정 어절이 선택되거나 수정된 상태이면, 이용자는 수정을 위한 문자 입력 위치를 상기 특정 어절이 포함된 자막그룹과 다른 자막그룹으로 변경하면서 자막을 수정할 수 있다. 그러면 상기 제1 영역(110)에도 그 수정 내용이 반영된다.

그리고 상기 제1 영역(110)에서는 특정 어절이 선택되거나 수정된 상태에서는, 상기 특정 어절이 포함된 자막그룹 내에서만 수정을 위한 문자 입력 위치를 변경하여 자막을 수정할 수 있다. 상기 제1 영역(110)에는 하나의 자막그룹만이 표시되어 있기 때문이다. 물론, 상기 제1 영역(110)의 자막 수정 내용은 상기 제2 영역(120)에도 반영된다.

본 발명의 다른 예에서는 상기 제1 영역(110)에 표시된 자막그룹이 아닌 다른 자막그룹으로도 자막 수정을 위한 문자 입력 위치를 변경할 수 있도록 구현될 수 있다. 이때, 자막 수정을 위한 문자 입력 위치가 상기 다른 자막 그룹으로 변경되면 동영상(111) 화면도 상기 다른 자막 그룹의 시간정보에 따라 변경된다.

도 16은 본 발명에 따른 동영상 자막/번역자막제공 서비스 방법을 나타내는 흐름도이다.

먼저, 서비스 서버(20)는 이용자 단말기(30)의 요청에 따라 제공되는 동영상의 제1 언어 음성신호를 STT 변환하여 자막문장을 획득한다(S300), 상기 자막문장의 각 어절에 대해 대응되는 음성신호 부분의 시작시간정보 및 종료시간정보를 매칭시켜 제1 타임테이블을 생성한다(S310).

그리고, 상기 서비스 서버(20)는 상기 자막문장에 대해 설정된 자막 표시단위에 기초하여 상기 자막문장을 상기 제1 언어의 어절단위로 그루핑된 복수의 자막그룹으로 분할하며(S120), 상기 복수의 자막그룹 각각에 대한 시작시간정보 및 종료시간정보를 포함하는 제2 타임테이블을 생성한다(S320).

그런 다음, 상기 서비스 서버(20)는 상기 자막문장을 제2 언어로 번역하여 번역문장을 생성한다(S330). 상기 번역문장은 상기 자막문장 전체(즉, 시작부터 종결어미까지)를 번역하여 생성될 수 있고, 상기 번역문장에 대해서는 상기 자막문장의 시작/종료시간정보에 대응되는 타임테이블이 생성될 수도 있다. 이 타임테이블은 상기 번역문장을 복수의 번역 자막그룹으로 나누는데 이용될 수 있다.

번역문장이 생성된 다음, 상기 서비스 서버(20)는 상기 번역문장에 대해 설정된 번역자막 표시단위에 기초하여 상기 번역문장을 상기 제2 언어의 어절단위로 그루핑된 복수의 자막그룹으로 분할하며(S340), 상기 복수의 번역 자막그룹 각각에 대한 시작시간정보 및 종료시간정보를 포함하는 제3 타임테이블을 생성한다(S340). 자막문장에 대응되는 자막 표시단위와 번역문장에 대응되는 번역자막 표시단위는 각 언어의 글자단위의 배수로 변경될 수 있다.

한편, 상기 번역문장을 상기 제2 언어의 어절단위로 그루핑하는 방법은, 앞서 도 3 내지 도 6 및 도 9 내지 도 11 등을 참하여 살펴본 자막문장의 그루핑 방법과 유사하므로, 이하 그 내용을 요약하고 구체적 실시예로 설명하지는 않는다.

(1) 상기 번역문장을 상기 복수의 번역 자막그룹으로 분할함에 있어서, 상기 번역자막 표시단위에 따른 마지막 위치가 특정 어절의 특정 글자까지인 경우, 상기 특정 어절까지를 하나의 번역 자막그룹으로 그루핑할 수 있다.

(2) 상기 번역문장을 상기 복수의 번역 자막그룹으로 분할함에 있어서, 상기 번역자막 표시단위에 따른 마지막 위치가 특정 어절의 특정 글자까지인 경우, 상기 특정 어절에서 상기 특정 글자까지의 글자수가, 상기 특정 어절의 글자수의 1/2 이상이면 상기 특정 어절까지를 하나의 번역 자막그룹으로 그루핑하고, 상기 특정 어절의 글자수의 1/2 미만이면 상기 특정 어절 이전의 어절까지를 하나의 번역 자막그룹으로 그루핑할 수 있다.

다시 도 16을 참조하면, 상기 서비스 서버(20)는 상기 동영상이 재생되는 경우, 상기 복수의 번역 자막그룹을 번역 자막그룹 단위로 상기 제3 타임테이블에 따라 상기 제1 타임테이블의 인터벌 동안 순차적으로 표시하도록 설정한다(S350).

상기 복수의 번역 자막그룹의 표시전환 속도는 상기 제1 타임테이블의 인터벌을 상기 번역 자막그룹의 개수로 나눈 값에 의하여 결정될 수 있다. 그리고 이러한 설정은 번역자막 표시모드와 자막/번역자막 공통표시 모드에 대하여 적용될 수 있다.

예컨대, 자막/번역자막 공통표시모드에서 상기 자막문장을 구성하는 복수의 자막그룹은 제2 타임테이블에 따라 순차적으로 표시되며, 상기 번역문장을 구성하는 복수의 번역 자막그룹은 상기 제3 타임테이블에 따라 순차적으로 표시된다. 이때, 상기 복수의 자막그룹과 상기 복수의 번역 자막그룹의 전환속도 및 전환횟수는 서로 다를 수 있다. 그러나 이들은 모두 자막문장의 시작/종료시간정보 사이의 인터벌 동안 순차적으로 표시되는 것은 공통적이다.

도 17은 도 16에 도시된 동영상 자막/번역자막제공 서비스 방법에 따라, 서비스 서버(20)가 번역문장들을 복수의 번역 자막그룹으로 분할한 다음 이를 이용자 단말기(30)로 제공하는 예를 나타내는 GUI(100')이다. 보다 구체적으로 상기 GUI(100)는 영어 번역자막 관련 편집, 설정 등을 위한 것이다.

제1 영역(110')에는 동영상과 함께 번역문장을 구성하는 번역 자막그룹 중 하나(113)가 표시되어 있다. 만약, 자막표시 모드의 경우, 상기 제1 영역(110')에는 자막문장을 구성하는 자막그룹이 표시된다.

제2 영역(120')에는 자막문장(123), 상기 자막문장을 제2 언어(즉, 영어)로 번역한 번역문장(124) 및 상기 번역문장(124)을 한글로 다시 번역한 역번역문장(125)이 표시된다.

상기 번역 문장(124)은 번역자막 표시단위인 글자수 30(즉, 알파벳 개수 30개)으로 그루핑된 복수의 번역 자막그룹(124-1 및 124-2)을 포함한다. 상기 제2 영역(120')에는 복수의 번역 자막그룹(124-1 및 124-2) 리스트가 시간순으로 나열되어 표시되며, 상기 복수의 번역 자막그룹(124-1 및 124-2) 각각에는 시작/종료시간정보가 매칭되어 있다.

상기 제2 영역(120')을 통하여 이용자는 자막문장, 번역문장, 역번역문장을 모두 확인할 수 있는데, 역번역문장과 자막문장을 비교하면 번역문장이 제대로 영어로 번역되었는지를 체크할 수 있다. 상기 번역문장의 번역이 잘못되었다고 판단되면, 이용자는 번역문장을 수정할 수 있다. 그러므로 이러한 방식에 따르면 번역문장의 정확도가 높아질 수 있다.

번역문장의 수정을 위하여, 도 17에서는 이용자가 번역 자막그룹(124-1)의 특정 어절 "The"를 클릭하여 선택하였으며, 상기 제1 영역(110')에서도 그에 대응되는 어절이 선택되었다.

이와 같이 상기 제2 영역(120')을 통한 어절의 선택에 의하여 번역자막 수정 기능이 활성화된다. 그러면 상기 특정 어절의 위치를 통하여 입력되는 문자에 따라 번역자막을 수정할 수 있다.

번역자막의 수정을 위한 어절의 선택은 동영상이 재생중이거나 재생이 중단된 상태 모두에서 가능하다. 다만, 상기 동영상이 재생중인 상태에서 어절이 선택되면, 번역자막의 정확한 수정을 위하여 상기 동영상의 재생은 중단되는 것이 바람직하다.

입력되는 문자에 따른 번역자막의 수정은 상기 제1 영역(110') 및 제2 영역(120') 모두에 반영된다. 그리고 역번역 문장에도 적용된다. 즉, 번역자막이 수정되면 상기 역번역문장도 그에 따라 변경되는데, 이를 통해 다시 한번 번역문장의 번역 정확도를 체크할 수 있다. 한편, 번역자막 수정 기능은 제1 영역(110')에 표시된 특정 어절의 선택에 따라 활성화되고, 그 위치를 통하여 입력되는 문자에 의하여 이루어질 수도 있다.

이상에서 살펴본 바와 같이, 이용자는 상기 제1 영역(110') 및 상기 제2 영역(120') 중 어느 하나에 표시된 특정 번역자막그룹의 특정 어절을 선택한 다음, 상기 특정 어절의 위치를 통한 문자입력으로 상기 제1 영역(110') 및 상기 제2 영역(120') 모두에 표시된 번역자막그룹을 수정할 수 있다. 이때, 상기 제1 영역(110) 및 상기 제2 영역(120') 중 어느 하나에서 상기 특정 어절이 선택되면, 상기 제1 영역(110') 및 상기 제2 영역(120') 중 나머지 하나에서도 대응되는 특정 어절이 선택된다.

한편, 앞서 도 15를 참조하여 살펴본 바와 유사하게, 상기 특정 어절이 선택 또는 수정된 상태에서, 이용자는 이용자 단말기에 연결된 키보드의 방향키 조작을 통하여 번역자막 수정을 위한 문자 입력 위치를 변경할 수 있으며, 변경된 위치를 통한 문자 입력을 통해 제1 영역(110') 및 제2 영역(120') 모두의 번역 자막그룹을 수정할 수 있다.

도 18은, 도 16에 도시된 동영상 자막/번역자막제공 서비스 방법에 따라, 자막문장(123)의 수정이 번역문장(124) 및 역번역문장(125)에 반영되는 예를 설명하기 위한 도면이다.

도 18의 (a)는 상기 자막문장(123), 상기 번역문장(124) 및 상기 역번역문장(125)이 제공된 상태를 나타낸다. 도 18의 (b)는 이용자가 상기 자막문장(123)의 어절 "아이폰을"을 "갤럭시는"으로 수정하는 경우, 상기 번역문장(124) 및 상기 역번역문장(125)에서도 그 수정 결과가 반영되는 것을 나타낸다.

이상에서 살펴본 예들과 달리, 본 발명의 다른 구현예에서는, 상기 자막문장, 상기 번역문장 및 상기 번역문장을 상기 제1 언어로 번역한 역번역문장을, 복수의 문장으로 구분하지 않고 하나의 문장으로, 이용자 단말기(30)로 제공할 수도 있다.

그러면 이용자는 상기 이용자 단말기(30)를 통하여 상기 번역문장 또는 상기 자막문장을 수정할 수 있다. 그러면, 상기 번역문장의 수정사항이 상기 번역문장에 반영되거나, 상기 자막문장의 수정사항이 상기 번역문장 및 상기 역번역문장에 반영될 수 있다. 이와 같은 방법에 의해서도 이용자는 번역문장에 대한 정확도를 향상시킬 수 있다.

도 19는, 도 16에 도시된 동영상 자막/번역자막제공 서비스 방법에 따라, 자막/번역자막 공통표시 모드(즉, 이중 자막 모드)에서 자막문장과 번역문장이 제공되는 것을 설명하기 위한 GUI(100")이다. 이에 대해 자막문장 1(123)과 번역문장 1(124)을 예로 들어 상세히 살펴본다.

제1 영역(110")에는 동영상 재생 시간에 대응되는 자막그룹과 번역 자막그룹이 하나씩 표시되며, 제2 영역(120")에는 자막문장들과 번역문장들에 대응되는 복수의 자막그룹과 복수의 번역 자막그룹이 시간순으로 나열되어 표시된다. 제3 영역(140)을 통하여, 이용자는 이중자막의 순서를 설정하거나 자막을 스타일링할 수 있다.

자막문장 1(123)은 자막 표시단위 "10"에 따라 3개의 자막그룹으로 분할되며(도 7참조), 번역문장 1(124)는 번역자막 표시단위 "30"에 의하여 2개의 번역 자막그룹으로 분할된다(도 17 참조). 상기 3개의 자막그룹과 상기 2개의 번역 자막그룹은 상기 자막문장의 제1 타임테이블의 인터벌 "00:05~00:11" 동안 순차적으로 표시된다.

상기 제1 타임테이블의 인터벌 동안 상기 3개의 자막그룹은 다른 자막그룹으로 2번 전환되며, 상기 2개의 번역 자막그룹은 1회 전환된다. 상기 번역 자막그룹의 표시전환은 상기 제1 타임테이블의 인터벌 "6초"를 상기 번역 자막그룹의 개수인 "2"로 나눈 "3초" 후에 이루어지며, 이러한 시간정보는 상기 번역 자막그룹의 제3 타임테이블에 포함되어 있다. 그리고 상기 3개의 자막그룹의 제공은 상기 2개의 번역 자막그룹과는 독립된 제2 타임테이블에 따라 이루어질 수 있다.

도 20은 본 발명에 따른 동영상 자막/번역자막 제공방법에 따라 자막(번역 자막 포함)의 스타일을 설정하기 위한 자막 설정 영역(130)의 일예를 나타낸다.

상기 자막 설정 영역(130)은 이용자가 자막의 스타일을 설정하기 위한 상부 영역(132)과 이용자가 미리 설정해 놓은 스타일을 호출하여 적용하거나 추천 스타일을 적용하기 위한 하부 영역(133)을 포함한다. 상기 상부 영역(132)에는 적용 범위 지정 영역(134), 글자 설정 영역(135), 글자체 설정 영역(136) 및 자막 위치 조정 영역(137)을 포함한다.

이용자는 상기 적용 범위 지정 영역(134)을 통하여 자막에 대한 설정이 자막 전체에 적용될지, 선택된 라인(즉, 선택된 자막그룹 또는 번역 자막그룹)에만 적용될지, 선택된 단어에만 적용될지를 지정할 수 있다. 이용자는 상기 글자 설정 영역(135)을 통하여 글자의 굵기, 기울임, 밑줄, 하일라이트, 색상 등을 설정할 수 있으며, 자막그룹이나 번역 자막그룹의 글자수(즉, 자막 표시단위 또는 번역자막 표시단위)를 설정할 수도 있다.

그리고 상기 자막 위치 조정 영역(137)의 방향키 조작을 통하여 이용자는 자막의 위치를 조정할 수 있다. 자막 위치의 조정은 자막그룹이나 번역 자막그룹을 마우스를 클릭하여 선택한 다음 드래그로 이동하는 것으로 수행될 수도 있다.

이상에서 살펴본 바와 같이, 본 발명에 따르면 동영상의 자막에 이용자가 원하는 다양한 스타일을 부여할 수 있고, 이러한 자막을 동영상에 매칭시켜 동영상 제공 서버(40)에 업로드할 수 있다. 그러므로 본 발명에 따르면 상기 동영상 제공 서버(40)를 통해서는 제공받을 수 없는 자막 스타일링 서비스를 제공받을 수 있다.

도 21은 본 발명에 따라 동영상 재생 중 자막을 수정하는 과정의 일예를 설명하기 위한 것이다.

도 21의 (a)는 동영상 재생 중이고 음성신호 "스티브"가 출력되는 상태에서, 이용자가 이용자 단말기(30)에 연결된 키보드의 미리 정해진 특정 키(예컨대, 엔터 키)를 조작하여, 자막 수정 기능을 활성화시키는 것을 나타낸다. 그러면 상기 동영상의 재생은 중단되며, 이용자는 자막의 어절 "스티브"의 위치를 통한 문자 입력을 통하여 자막을 수정할 수 있다. 예컨대, 이용자가 입력하는 문자는 바로 "스티브" 부분을 대체하게 된다.

그러나 자막에서 수정하고자 하는 부분은 "이 천 칠 년" 부분이므로, 이용자는 도 21의 (b)와 같이 키보드 방향키 조작을 통하여 문자 입력 위치를 변경한다. 그런 다음, 이용자는 도 21의 (c)와 같이, "이 천 칠 "의 위치에 "2007"을 입력하여 자막을 수정할 수 있다.

한편, 이용자는 도 21의 예와 달리, 동영상 재생 중 스페이스 키를 조작하여 먼저 동영상의 재생을 중단시킨 다음, "이 천 칠 " 중 하나의 어절을 선택하여 자막 수정을 위한 문자의 입력 위치를 설정한 다음 키보드 키를 조작하여 수정을 위한 문자를 입력할 수도 있다. 물론, 이용자는 마우스를 통하여 자막 수정을 위한 문자 입력 위치를 바로 선택할 수도 있다. 이 경우에도 동영상의 재생은 중단됨이 바람직하다.

상술한 자막 수정 방법들은 번역 자막의 수정에도 적용될 수 있음은 통상의 기술자에게 자명한 사항이라 할 것이므로, 이에 대한 예시를 통한 상세 설명은 생략한다.

도 22a 및 도 22b는 본 발명에 따른 자막/번역자막 제공 서비스 방법에 따라 자막그룹을 병합하는 예를 나타내는 도면이다.

도 21a는 제2 영역(120)의 자막 제공 영역(121)에 자막문장 1과 자막문장 2가 자막그룹으로 나누어져 표시되어 있으며, 상기 자막그룹 1의 첫 번째 자막그룹(126-1)이 선택되고, 상기 자막 제공 영역(121)에는 상기 자막그룹(126-1)의 상하에 인접 자막그룹과의 병합을 위한 기능 아이콘(127)이 제공된 것을 나타낸다.

이 상태에서 상기 자막그룹(126-1)의 하부에 표시된 기능 아이콘(127)을 선택하면, 도 22b와 같이 상기 자막그룹(126-1)은 그 다음 자막그룹(126-2)과 병합되어 양자는 하나의 병합 자막그룹(126-3)이 된다. 이때, 두 자막그룹(126-1 및 126-2)의 시간 정보 역시 하나로 병합되는데, 도면에서는 상기 병합 자막그룹(126-3)의 시작/종료시간정보가 "00:10~00:16"인 것을 확인할 수 있다.

이와 같은 두 자막그룹(126-1 및 126-2)의 병합은 상기 자막그룹(126-1)의 끝에 커서를 위치시킨 다음 삭제(delete) 키를 조작하거나, 상기 자막그룹(126-2)의 맨앞에 커서를 위치시킨 다음 백스페이스(backspace) 키를 조작함으로써 이루어질 수 있다. 물론, 이 경우에도 두 자막그룹(126-1 및 126-2)의 시작/종료시간정보도 하나로 통합된다.

한편, 상기 자막제공 영역(121)에서 이용자는 방향키 조작에 의하여 자막그룹 사이를 위/아래 방향으로 커서를 이동시킬 수 있고, 자막그룹 내에서는 좌우 방향으로 커서를 이동시킬 수 있다.

상술한 자막그룹의 병합, 자막 제공 영역(121)에서의 커서 이동 방법은 번역 자막에 대해서도 적용될 수 있음은 통상의 기술자에게 자명한 사항이라 할 것이므로, 이에 대한 예시를 통한 상세 설명은 생략한다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

10: 동영상 번역자막제공 서비스 시스템 20: 서비스 서버
30: 이용자 단말기 40: 동영상 제공 서버
50: 소비자 단말기 60: 회원 단말기

Claims

동영상의 제1 언어의 음성신호로부터 자막문장을 획득하되, 상기 자막문장의 각 어절에 대해 대응되는 음성신호의 시작시간정보 및 종료시간정보를 매칭시켜 제1 타임테이블을 생성하는 단계;
상기 제1 언어의 글자단위의 배수로 설정된 자막 표시단위에 기초하여, 상기 자막문장을 상기 제1 언어의 어절단위로 그루핑된 복수의 자막그룹으로 분할하고, 상기 제1 타임테이블을 참조하여 상기 복수의 자막그룹 각각에 대한 시작 및 종료시간정보를 포함하는 제2 타임테이블을 생성하는 단계; 및
상기 복수의 자막그룹을 상기 음성신호에 동기시켜 상기 동영상과 함께 표시하는 제1 영역, 상기 복수의 자막그룹 리스트를 제공하는 제2 영역 및 자막 관련 사항을 설정하기 위한 제3 영역을 포함하는 GUI를 사용자 단말기로 제공하는 단계를 포함하며,
상기 제2 영역에 표시된 상기 복수의 자막그룹 리스트 중에서 상기 제1 영역에 표시되는 자막그룹에 대응되는 자막그룹은 다른 자막그룹들과 다르게 표시되며,
상기 제1 및 제2 영역에 표시되는 상기 복수의 자막그룹에서, 상기 제2 타임테이블에 따라 상기 음성신호에 동기된 어절은 다른 어절들과 다르게 표시되며,
상기 제1 및 제2 영역을 통하여 제공되는 특정 자막그룹의 특정 어절이 선택되면 상기 특정 어절에서 자막수정 기능이 활성화되며,
사용자는 상기 제3 영역을 통하여 상기 자막 표시단위를 상기 제1 언어의 글자단위의 배수단위로 변경할 수 있으며, 상기 자막 표시단위의 변경은 상기 제1 및 제2 영역에 즉시 반영되는 것을 특징으로 하는, 동영상 자막제공 서비스 방법.
제1항에 있어서,
상기 특정 어절에서의 자막수정 기능은,
상기 특정 어절이 상기 음성신호에 동기되어 상기 다른 어절들과 다르게 표시된 상태에서 키보드에서 미리 정해진 자막수정 키가 조작되면 활성화될 수 있고,
상기 음성신호에 대한 동기 여부와 상관없이 상기 제1 및 제2 영역 중 하나에서 상기 특정 어절에 대한 마우스 클릭에 응답하여 활성화될 수도 있는 것을 특징으로 하는, 동영상 자막제공 서비스 방법.
제2항에 있어서,
상기 자막문장을 상기 복수의 자막그룹으로 분할함에 있어서, 상기 자막 표시단위에 따른 마지막 위치가 특정 어절의 특정 글자까지인 경우,
상기 특정 어절까지를 하나의 자막그룹으로 그루핑하는 것을 특징으로 하는, 동영상 자막제공 서비스 방법.
제2항에 있어서,
상기 자막문장을 상기 복수의 자막그룹으로 분할함에 있어서, 상기 자막 표시단위에 따른 마지막 위치가 특정 어절의 특정 글자까지인 경우,
상기 특정 어절에서 상기 특정 글자까지의 글자수가, 상기 특정 어절의 글자수의 1/2 이상이면 상기 특정 어절까지를 하나의 자막그룹으로 그루핑하고, 상기 특정 어절의 글자수의 1/2 미만이면 상기 특정 어절 이전의 어절까지를 하나의 자막그룹으로 그루핑하는 것을 특징으로 하는, 동영상 자막제공 서비스 방법.
삭제
삭제
제2항에 있어서,
상기 제1 및 제2 영역 중 어느 하나에 표시된 상기 특정 자막그룹의 상기 특정 어절이 선택되면, 상기 제1 및 제2 영역 중 나머지 하나에서도 상기 특정 자막그룹의 상기 특정 어절이 함께 선택되는 단계를 더 포함하는 것을 특징으로 하는, 동영상 자막제공 서비스 방법.
삭제