WO2017217613A1

WO2017217613A1 - 머신러닝을 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법

Info

Publication number: WO2017217613A1
Application number: PCT/KR2016/012890
Authority: WO
Inventors: 박문수
Original assignee: 주식회사 사이
Priority date: 2016-06-17
Filing date: 2016-11-10
Publication date: 2017-12-21
Also published as: WO2017217612A1

Abstract

머신러닝을 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법이 제공된다. 상기 방법은, 컴퓨터에 의해 실현되는 방법으로서, 동영상 컨텐츠를 재생하는 단계, 머신러닝을 이용하여 실시간 예측된 적어도 하나의 제1 시간 구간에 관한 정보를 제공하는 단계, 사용자의 터치 조작에 따라 적어도 하나의 제2 시간 구간을 설정하는 단계, 상기 사용자로부터 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트를 수신하는 단계, 및 상기 적어도 하나의 제2 시간 구간과 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성하는 단계를 포함한다.

Description

머신러닝을 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법

본 발명은 동영상 컨텐츠의 자막 생성 및 공유 방법에 관한 것이다.

대한민국 등록특허공보 제10-1419871호에는 자막 편집 장치 및 자막 편집방법이 제시되어 있다. 상기 자막 편집 방법은 동영상 미리보기 화면을 표시하고, 상기 미리보기 화면에 대응하는 동영상 클립을 표시하고, 상기 동영상 클립에 대한 사용자 제스처를 감지하여 상기 동영상 클립에 대한 자막 편집 모드로 진입한다. 상기 자막 편집 방법은, 상기 자막 편집 모드에서, 사용자의 자막 입력, 자막 삭제, 자막 이동, 자막 복사 등을 위한 제스처를 감지하고, 감지된 제스처에 대응하여 자막 편집 동작을 수행한다.

본 발명이 해결하고자 하는 과제는 동영상 컨텐츠의 자막 생성 및 공유 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 동영상 컨텐츠의 자막 생성 및 공유 방법은, 컴퓨터에 의해 실현되는 방법으로서, 동영상 컨텐츠를 재생하는 단계, 머신러닝을 이용하여 실시간 예측된 적어도 하나의 제1 시간 구간에 관한 정보를 제공하는 단계, 사용자의 터치 조작에 따라 적어도 하나의 제2 시간 구간(time duration)을 설정하는 단계, 상기 사용자로부터 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트(text)를 수신하는 단계, 및 상기 적어도 하나의 제2 시간 구간과 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성하는 단계를 포함하되, 상기 사용자의 터치 조작에 따라 적어도 하나의 제2 시간 구간(time duration)을 설정하는 단계는, 상기 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 제2 시간 구간의 시작 시간(start time)으로 설정하고, 상기 사용자의 터치 해제(touch release)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 해제 시점을 상기 제2 시간 구간의 종료 시간(end time)으로 설정한다.

본 발명의 일부 실시예에서, 상기 방법은, 상기 재생되는 동영상 컨텐츠에 인접하여 상기 동영상 컨텐츠의 오디오 신호를 시각화한 객체를 표시하되, 상기 오디오 신호를 시각화한 객체 상에 현재 시점에 상응하는 기준자를 표시하는 단계를 더 포함한다.

본 발명의 일부 실시예에서, 상기 방법은, 서버로부터 상기 적어도 하나의 제1 시간 구간에 관한 정보를 수신하는 단계, 및 상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고, 상기 서버는, 머신러닝을 이용하여 상기 동영상 컨텐츠의 오디오 신호 또는 다른 사용자에 의해 설정된 적어도 하나의 시간 구간을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 제1 시간 구간에 관한 정보를 실시간 예측한다.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 동영상 컨텐츠의 자막 생성 및 공유 방법은, 컴퓨터에 의해 실현되는 방법으로서, 동영상 컨텐츠를 재생하는 단계, 머신러닝을 이용하여 실시간 예측된 적어도 하나의 미리 정해진 단위 시간을 제공하는 단계, 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계, 상기 사용자로부터 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 수신하는 단계 및 상기 적어도 하나의 시간 구간과 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성하는 단계를 포함하되, 상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는, 상기 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 시간 구간의 종료 시간(end time)으로 설정하고, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간(start time)으로 설정한다.

본 발명의 일부 실시예에서, 상기 방법은, 상기 재생되는 동영상 컨텐츠에 인접하여 상기 적어도 하나의 미리 정해진 단위 시간을 제공하는 단위 시간 조작 창을 표시하는 단계를 더 포함하고, 상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는, 상기 적어도 하나의 미리 정해진 단위 시간 중 상기 사용자에 의해 선택된 미리 정해진 단위 시간을 이용하여, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간으로 설정한다.

또한, 상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는, 상기 적어도 하나의 미리 정해진 단위 시간 중 상기 사용자의 상기 터치 입력에 의해 선택된 미리 정해진 단위 시간을 이용하여, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간으로 설정한다.

본 발명의 일부 실시예에서, 상기 방법은, 서버로부터 상기 적어도 하나의 미리 정해진 단위 시간을 수신하는 단계, 및 상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고, 상기 서버는, 머신 러닝을 이용하여 상기 동영상 컨텐츠의 오디오 신호 또는 다른 사용자에 의해 설정된 적어도 하나의 시간 구간을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 미리 정해진 단위 시간을 실시간 예측한다.

본 발명의 일부 실시예에서, 상기 방법은, 서버로부터 상기 적어도 하나의 미리 정해진 단위 시간을 수신하는 단계, 및 상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고, 상기 서버는, 머신러닝을 이용하여 상기 사용자의 상기 적어도 하나의 시간 구간 설정 패턴을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 미리 정해진 단위 시간을 실시간 예측한다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명에 의하면, 모바일 환경 하에서도, 터치 조작을 통해서, 사용자가 동영상 컨텐츠의 자막을 실시간으로 그리고 쉽게 생성할 수 있고, 다른 사용자와 자막을 실시간으로 공유하고 수정할 수 있으며, 집단지성을 통해서 완성도 및 신뢰도가 높은 자막이 배포될 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 동영상 컨텐츠의 자막 생성 및 공유 시스템의 구성을 설명하기 위한 개략적인 블록도이다.

도 2는 도 1의 서버의 구성을 설명하기 위한 개략적인 블록도이다.

도 3은 도 1의 클라이언트의 구성을 설명하기 위한 개략적인 블록도이다.

도 4는 본 발명의 실시예에 따른 동영상 컨텐츠의 자막을 생성하여 공유하는 방법을 개략적으로 도시한 흐름도이다.

도 5는 본 발명의 실시예에 따른 동영상 컨텐츠의 자막을 공유하여 동영상 컨텐츠를 재생하는 방법을 개략적으로 도시한 흐름도이다.

도 6은 본 발명의 실시예에 따른 동영상 컨텐츠의 자막을 공유하여 동영상 컨텐츠의 새로운 자막을 생성하는 방법을 개략적으로 도시한 흐름도이다.

도 7은 본 발명의 일 실시예에 따른 자막 생성 인터페이스를 설명하기 위한 개략적인 흐름도이다.

도 8은 본 발명의 일 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 화면을 개략적으로 도시한 도면이다.

도 9는 본 발명의 일 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 방식를 설명하기 위한 개략적인 도면이다.

도 10은 본 발명의 다른 실시예에 따른 자막 생성 인터페이스를 설명하기 위한 개략적인 흐름도이다.

도 11은 본 발명의 다른 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 화면를 개략적으로 도시한 도면이다.

도 12는 본 발명의 다른 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 방식를 설명하기 위한 개략적인 도면이다.

도 13은 본 발명의 또 다른 실시예에 따른 자막 생성 인터페이스를 설명하기 위한 개략적인 도면이다.

도 14 내지 15는 본 발명의 또 다른 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 방식를 설명하기 위한 개략적인 도면이다.

도 16은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 선택 화면를 개략적으로 도시한 도면이다.

도 17 내지 도 18은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 수정 화면를 개략적으로 도시한 도면이다.

도 19는 본 발명의 실시예들에 따른 자막 생성 인터페이스의 텍스트 입력 화면를 개략적으로 도시한 도면이다.

도 20은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 자막 선택 화면를 개략적으로 도시한 도면이다.

도 21은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 공유 화면를 개략적으로 도시한 도면이다.

도 22는 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 및 텍스트 공유 화면를 개략적으로 도시한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

“자막”은 동영상 컨텐츠의 재생시 상기 동영상 컨텐츠와 함께 화면에 표시되는 문자를 나타낸다. 자막은 동영상 컨텐츠의 제목, 배역, 장소, 시간, 대사, 제작 등과 관련하여 시청자에게 설명을 위한 임의의 문자를 포함한다. 자막은 동영상 컨텐츠의 재생 시간 중 자막을 표시하기 위한 시간 구간(time duration)과 상기 시간 구간에 상응하여 자막으로서 화면에 표시되는 텍스트(text)를 포함하여 구성된다.

도 1을 참조하면, 동영상 컨텐츠의 자막 생성 및 공유 시스템은 서버(100)와 복수의 클라이언트(200)를 포함한다.

서버(100)와 복수의 클라이언트(200)는 네트워크를 통해서 서로 데이터 및/또는 정보를 통신한다. 네트워크는 유선 및/또는 무선 네트워크로 제공된다. 네트워크는 임의의 프로토콜, 규모, 토폴로지를 가질 수 있다.

서버(100)는 적어도 하나의 동영상 컨텐츠를 저장하고, 클라이언트(200)의 요청에 응답하여 클라이언트(200)에게 적어도 하나의 동영상 컨텐츠를 제공한다. 서버(100)는 클라이언트(200)로부터 적어도 하나의 동영상 컨텐츠의 적어도 하나의 자막을 수신하여 저장한다. 서버(100)는 클라이언트(200)의 요청에 응답하여 클라이언트(200)에게 적어도 하나의 동영상 컨텐츠의 적어도 하나의 자막을 제공한다. 서버(100)는 클라이언트(200)의 요청에 따라 적어도 하나의 동영상 컨텐츠를, 적어도 하나의 동영상 컨텐츠와 상기 동영상 컨텐츠의 자막을, 또는 상기 동영상 컨텐츠의 자막을 클라이언트(200)에게 제공한다.

도 2를 참조하면, 서버(100)는 통신부(110), 사용자 관리부(120), 컨텐츠 제공부(130), 자막 제공부(140), 사용자 데이터베이스(150), 컨텐츠 데이터베이스(160), 자막 데이터베이스(170)를 포함한다.

통신부(110)는 클라이언트(200)와 유선 및/또는 무선 통신한다. 사용자 관리부(120)는 사용자를 등록하고 사용자 계정을 생성한다. 사용자 관리부(120)는 사용자 계정의 정보의 추가, 삭제, 수정, 검색 등을 수행한다. 컨텐츠 제공부(130)는 컨텐츠 데이터베이스(160)에 저장된 적어도 하나의 동영상 컨텐츠 중에서 클라이언트(200)가 요청한 동영상 컨텐츠를 검색하고, 검색된 동영상 컨텐츠를 통신부(110)를 통해서 클라이언트(200)에게 제공한다. 자막 제공부(140)는 자막 데이터베이스(170)에 저장된 적어도 하나의 동영상 컨텐츠의 적어도 하나의 자막 중에서 클라이언트(200)가 요청한 동영상 컨텐츠의 자막을 검색하고, 검색된 동영상 컨텐츠의 자막을 통신부(110)를 통해서 클라이언트(200)에게 제공한다. 사용자 데이터베이스(150)는 사용자 계정, 사용자 프로파일, 사용자 로그 등과 같은 사용자 정보를 저장한다. 컨텐츠 데이터베이스(160)는 적어도 하나의 동영상 컨텐츠를 저장한다. 일부 실시예에서, 컨텐츠 데이터베이스(160)에 저장된 적어도 하나의 동영상 컨텐츠는 국가별로 또는 유형별로 구분된다. 예를 들어, 예능, 드라마, 영화, 다큐멘터리, 강좌 등과 같은 동영상 컨텐츠가 컨텐츠 데이터베이스(160) 내에 저장될 수 있으나, 이에 한정되는 것은 아니다. 자막 데이터베이스(170)는 적어도 하나의 동영상 컨텐츠의 자막을 저장한다. 일부 실시예에서, 자막 데이터베이스(170)에 저장된 자막들은 관계된 동영상 컨텐츠에 따라 구분된다. 일부 실시예에서, 자막의 생성자, 생성 일자, 자막 언어 또는 자막에 관한 설명 등과 같은 자막 관련 정보가 자막 데이터베이스(170) 내에 함께 저장된다.

한편, 도 2에 도시된 구성요소들이 필수적인 것은 아니어서, 일부 실시예에서, 서버(100)는 도 2에 도시되지 않은 구성요소를 더 포함하거나, 또는 도 2에 도시된 일부 구성요소를 포함하지 않도록 변형될 수 있다.

클라이언트(200)는 사용자에 의해 사용되는 컴퓨터 장치를 나타낸다. 예를 들어, 클라이언트(200)는 스마트폰, 태블릿, PDA(Personal Digital Assist) 등과 같은 모바일 장치로 제공될 수 있으나, 이에 한정되는 것은 아니다. 클라이언트(200)는 네트워크를 통해서 데이터 및/또는 정보의 통신이 가능한 예시되지 않은 임의의 컴퓨터 장치로 제공될 수 있다.

클라이언트(200)는 서버(100)로부터 소정의 동영상 컨텐츠만을 수신하고, 수신한 소정의 동영상 컨텐츠를 재생하고, 사용자의 조작에 따라 상기 동영상 컨텐츠의 자막을 생성한다. 클라이언트(200)는 서버(100)에게 사용자에 의해 생성된 상기 동영상 컨텐츠의 자막을 전송한다. 클라이언트(200)는 서버(100)로부터 소정의 동영상 컨텐츠와 다른 사용자에 의해 생성된 상기 동영상 컨텐츠의 자막을 수신하고, 상기 자막을 이용하여 상기 동영상 컨텐츠를 재생한다. 클라이언트(200)는 서버(100)로부터 다른 사용자에 의해 생성된 소정의 동영상 컨텐츠의 자막을 수신하고, 상기 자막을 기초로 하여 사용자의 조작에 따라 상기 동영상 컨텐츠의 새로운 자막을 생성한다. 클라이언트(200)는 서버(100)에게 사용자에 의해 생성된 상기 동영상 컨텐츠의 새로운 자막을 전송한다. 클라이언트(200)는 동영상 컨텐츠의 자막 생성 및 공유를 위한 클라이언트 프로그램을 수행한다. 예를 들어, 클라이언트 프로그램은 웹 브라우저, 데스크톱 애플리케이션, 모바일 애플리케이션 등의 형태로 제공될 수 있으나, 이에 한정되는 것은 아니다.

도 3을 참조하면, 클라이언트(200)는 무선 통신부(210), A/V 입력부(220), 사용자 입력부(230), 센싱부(240), 출력부(250), 저장부(260), 인터페이스부(270), 제어부(280), 전원 공급부(290)를 포함한다.

무선 통신부(210)는 서버(100)와 같은 외부 디바이스와 무선 통신한다. 무선 통신부(210)는 예를 들어 이동 통신, 와이브로, 블루투스(Bluetooth), 와이파이(WiFi), 지그비(Zigbee), 초음파, 적외선, RF(Radio Frequency) 등과 같은 무선 통신 방식을 이용하여 무선 통신한다. 그러나, 클라이언트(200)의 무선 통신 방식이 특정한 실시예에 제한되는 것은 아니다. 무선 통신부(210)는 외부 디바이스로부터 수신한 데이터 및/또는 정보를 제어부(280)에 전달하고, 제어부(280)로부터 전달된 데이터 및/또는 정보를 외부 디바이스에 전송한다. 이를 위하여, 무선 통신부(210)는 이동 통신 모듈(211) 및 근거리 통신 모듈(212)을 포함할 수 있다.

또한, 무선 통신부(210)는 위치 정보 모듈(213)을 포함하여 클라이언트(200)의 위치 정보를 획득한다. 클라이언트(200)의 위치 정보는 예를 들어 GPS 측위 시스템, WiFi 측위 시스템, 셀룰러(Cellular) 측위 시스템 또는 비콘(beacon) 측위 시스템들로부터 제공될 수 있으나, 본 발명이 이에 제한되는 것은 아니고, 임의의 측위 시스템들로부터 위치 정보가 제공될 수 있다. 무선 통신부(210)는 측위 시스템으로부터 수신한 위치 정보를 제어부(280)에 전달한다.

A/V 입력부(220)는 영상 또는 음성 신호 입력을 위한 것으로, 카메라 모듈(221)과 마이크 모듈(222)을 포함할 수 있다.

사용자 입력부(230)는 사용자로부터 각종 정보를 입력받는다. 사용자 입력부(230)는 키패드, 버튼, 스위치, 터치 패드, 조그 휠 등의 입력 수단을 포함한다. 터치 패드가 후술하는 디스플레이 모듈(251)과 상호 레이어 구조를 이루는 경우, 터치스크린을 구성할 수 있다.

센싱부(240)는 클라이언트(200)의 상태 또는 사용자의 상태를 감지한다. 센싱부(240)는 터치 센서, 근접 센서, 압력 센서, 진동 센서, 지자기 센서, 자이로 센서, 속도 센서, 가속도 센서, 생체 인식 센서 등의 감지 수단을 포함할 수 있다. 일부 실시예에서 센싱부(240)는 사용자 입력을 위하여 이용된다.

출력부(250)는 사용자에게 각종 정보를 통보한다. 출력부(250)는 텍스트, 영상 또는 음성의 형태로 정보를 출력한다. 이를 위하여, 출력부(250)는 디스플레이 모듈(251) 및 스피커 모듈(252)을 포함할 수 있다. 디스플레이 모듈(251)은 PDP(Plasma Display Panel), LCD(Liquid Crystal Display), TFT(Thin Film Transistor) LCD, OLED(Organic Light Emitting Diode), 플렉시블 디스플레이, 3차원 디스플레이, 전자잉크 디스플레이, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태로 제공될 수 있다. 출력부(250)는 본 발명이 속하는 기술분야에서 잘 알려진 임의의 형태의 출력 수단을 더 포함하여 구성될 수 있다.

저장부(260)는 각종 데이터 및 명령을 저장한다. 저장부(260)는 클라이언트(200)의 동작을 위한 시스템 소프트웨어와 각종 애플리케이션을 저장한다. 저장부(260)는 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable-Programmable ROM), EEPROM(Electrically EPROM), 플래시 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함할 수 있다.

인터페이스부(270)는 클라이언트(200)에 접속되는 외부 디바이스와의 통로 역할을 수행한다. 인터페이스부(270)는 외부 디바이스로부터 데이터 및/또는 정보를 수신하거나 전원을 공급받아 클라이언트(200) 내부의 구성요소들에 전달하거나, 외부 디바이스에 클라이언트(200) 내부의 데이터 및/또는 정보를 전송하거나 내부의 전원을 공급한다. 인터페이스부(270)는 예를 들어, 유/무선 헤드셋 포트, 충전용 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 범용 직렬 버스(Universal Serial Bus; USB) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트 등을 포함할 수 있다.

제어부(280)는 다른 구성요소들을 제어하여 클라이언트(200)의 전반적인 동작을 제어한다. 제어부(280)는 저장부(260)에 저장된 시스템 소프트웨어와 각종 애플리케이션을 수행한다.

전원 공급부(290)는 무선 통신부(210), A/V 입력부(220), 사용자 입력부(230), 센싱부(240), 출력부(250), 저장부(260), 인터페이스부(270), 제어부(280)의 동작에 필요한 전원을 공급한다. 전원 공급부(290)는 내장 배터리를 포함할 수 있다.

한편, 도 3에 도시된 구성요소들이 필수적인 것은 아니어서, 일부 실시예에서, 클라이언트(200)는 도 3에 도시되지 않은 구성요소를 더 포함하거나, 또는 도 3에 도시된 일부 구성요소를 포함하지 않도록 변형될 수 있다.

한편, 도 1에서는 하나의 서버(100)만이 도시되어 있으나, 일부 실시예에서, 서버(100)는 필요에 따라 복수 개가 제공되도록 변형될 수 있다.

도 1의 동영상 컨텐츠의 자막 생성 및 공유 시스템에 따르면, 사용자는 소정의 동영상 컨텐츠의 자막을 직접 생성하거나, 다른 사용자에 의해 생성된 상기 동영상 컨텐츠의 자막을 공유하고, 상기 자막을 이용하여 상기 동영상 컨텐츠를 시청할 수 있다. 또는, 사용자는 다른 사용자에 의해 생성된 상기 동영상 컨텐츠의 자막을 보다 완성도 높게 수정할 수 있다. 도 1의 동영상 컨텐츠의 자막 생성 및 공유 시스템 내에서, 사용자에 의해 생성된 적어도 일부의 자막은 다른 사용자에게 유료로 거래될 수 있다.

도 4를 참조하면, 단계 S310에서, 클라이언트(200)가 서버(100)로부터 소정의 동영상 컨텐츠를 수신한다.

이어서, 단계 S320에서, 클라이언트(200)가 사용자의 조작에 따라 상기 동영상 컨텐츠의 자막을 생성한다. 구체적인 동영상 컨텐츠의 자막 생성 방법은 이하에서 도 7 내지 도 15를 참조하여 상세하게 설명한다.

이어서, 단계 S330에서, 클라이언트(200)가 서버(100)에게 사용자에 의해 생성된 상기 동영상 컨텐츠의 자막을 전송한다.

도 5를 참조하면, 단계 S410에서, 클라이언트(200)가 서버(100)로부터 소정의 동영상 컨텐츠를 수신한다.

이어서, 단계 S420에서, 클라이언트(200)가 서버(100)로부터 다른 사용자에 의해 생성된 상기 동영상 컨텐츠의 적어도 하나의 자막을 수신한다.

이어서, 단계 S430에서, 클라이언트(200)가 서버(100)로부터 수신한 상기 적어도 하나의 자막 중 사용자에 의해 선택된 자막을 이용하여 상기 동영상 컨텐츠를 재생한다.

도 6을 참조하면, 단계 S510에서, 클라이언트(200)가 서버(100)로부터 소정의 동영상 컨텐츠를 수신한다.

이어서, 단계 S520에서, 클라이언트(200)가 서버(100)로부터 다른 사용자에 의해 생성된 상기 동영상 컨텐츠의 적어도 하나의 자막을 수신한다.

이어서, 단계 S530에서, 클라이언트(200)가 다른 사용자에 의해 생성된 상기 적어도 하나의 자막 중 사용자에 의해 선택된 자막을 또는 상기 자막의 시간 구간을 편집 가능한 상태로 제공한다.

이어서, 단계 S540에서, 클라이언트(200)가 상기 자막을 또는 상기 자막의 시간 구간을 기초로 하여 사용자의 조작에 따라 상기 동영상 컨텐츠의 새로운 자막을 생성한다.

이어서, 단계 S550에서, 클라이언트(200)가 서버(100)에게 사용자에 의해 생성된 상기 동영상 컨텐츠의 상기 자막을 전송한다.

도 7을 참조하면, 단계 S610에서, 클라이언트(200)가 서버(100)로부터 수신한 소정의 동영상 컨텐츠를 재생한다.

이어서, 단계 S620에서, 클라이언트(200)가 상기 동영상 컨텐츠의 오디오 신호 객체를 표시한다. 오디오 신호 객체는 상기 동영상 컨텐츠의 오디오 신호를 시각화한다. 일부 실시예에서, 오디오 신호 객체 상에는 현재 시점에 상응하는 기준자(referencer)가 표시된다. 사용자는 기준자를 통해서 현재 시점의 오디오 신호를 인식하고, 후술하는 시간 구간의 설정을 위하여 참고할 수 있다.

이어서, 단계 S630에서, 클라이언트(200)가 사용자의 터치 입력과 터치 해제에 따라 적어도 하나의 시간 구간을 설정한다. 클라이언트(200)는 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 시간 구간의 시작 시간(start time)으로 설정하고, 사용자의 터치 해제(touch release)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 해제 시점을 상기 시간 구간의 종료 시간(end time)으로 설정한다.

이어서, 단계 S640에서, 클라이언트(200)가 사용자로부터 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 수신한다.

이어서, 단계 S650에서, 클라이언트(200)가 상기 적어도 하나의 시간 구간과 상기 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성한다. 각각의 시간 구간은 그에 매핑된 각각의 텍스트를 갖는다.

도 8을 참조하면, 동영상 재생 창 내에서 동영상 컨텐츠(10)가 재생된다. 동영상 컨텐츠(10)에 인접하여 동영상 컨텐츠(10)의 타임라인(11)이 표시된다. 타임라인(11)은 동영상 컨텐츠(10)의 전체 재생 시간과 현재 시점을 나타낸다. 타임라인(11)은 동영상 재생 창 내부에 또는 외부에 배치된다. 일부 시시예에서, 타임라인(11)이 동영상 재생 창 내부에 배치되는 경우, 타임라인(11)은 재생되는 동영상 컨텐츠(10) 상에 오버랩되어 표시된다. 타임라인(11)에 인접하여 오디오 신호 창 내에서 동영상 컨텐츠(10)의 오디오 신호 객체(12)가 표시된다. 오디오 신호 객체(12)의 하부에 자막 편집 창 내에서 동영상 컨텐츠(10)의 적어도 하나의 시간 구간(15)의 목록이 표시된다.

오디오 신호 객체(12) 상에는 현재 시점에 상응하는 기준자(13)가 표시된다. 오디오 신호 객체(12) 상에 동영상 컨텐츠(10)의 오디오 신호 중 사용자에 의해 설정된 시간 구간(15)에 상응하는 영역(14)이 다른 영역과 구별되도록 표시된다. 일부 실시예에서, 도 8에 도시된 바와 같이 경계 박스를 이용하여 상기 영역(14)이 다른 영역과 구별되어 표시된다. 일부 실시예에서, 상기 영역(14)은 크기 또는 밝기 등이 다른 영역과 다르게 표시된다. 그러나, 상기 영역(14)의 표시 방법이 이에 한정되는 것은 아니다. 일부 실시예에서, 사용자는 오디오 신호 창에 대한 터치(30)를 통해서 시간 구간(15)을 설정한다. 일부 실시예에서, 사용자는 오디오 신호 창 및 자막 편집 창에 대한 터치(30)를 통해서 시간 구간(15)을 설정한다. 사용자는 임의의 영역에 대한 터치(30)를 통해서 시간 구간(15)을 설정할 수 있다.

도 9를 참조하면, 동영상 컨텐츠의 재생 시간 중 제1 시점(t1)에서 사용자의 터치 입력(30)이 제공되고 제2 시점(t2)에서 사용자의 터치 해제(30)가 제공되면, 제1 시점(t1)과 제2 시점(t2) 사이의 시간이 자막을 표시하기 위한 시간 구간으로 설정된다. 즉, 제1 시점(t1)이 시간 구간의 시작 시간으로 설정되고, 제2 시점(t2)이 시간 구간의 종료 시간으로 설정된다.

도 10을 참조하면, 단계 S710에서, 클라이언트(200)가 서버(100)로부터 수신한 소정의 동영상 컨텐츠를 재생한다.

이어서, 단계 S720에서, 클라이언트(200)가 상기 동영상 컨텐츠의 오디오 신호 객체를 표시한다. 오디오 신호 객체는 상기 동영상 컨텐츠의 오디오 신호를 시각화한다. 일부 실시예에서, 오디오 신호 객체 상에는 현재 시점에 상응하는 기준자가 표시된다.

이어서, 단계 S730에서, 클라이언트(200)가 단위 시간 조작창을 표시한다. 단위 시간 조작창은 사용자의 단위 시간을 선택을 위한 것이다. 단위 시간 조작창은 복수의 미리 정해진 단위 시간을 제공한다.

이어서, 단계 S740에서, 클라이언트(200)가 사용자의 터치 입력과 단위 시간에 따라 적어도 하나의 시간 구간을 설정한다. 클라이언트(200)는 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 시간 구간의 종료 시간(end time)으로 설정하고, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간(start time)으로 설정한다.

이어서, 단계 S750에서, 클라이언트(200)가 사용자로부터 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 수신한다.

이어서, 단계 S760에서, 클라이언트(200)가 상기 적어도 하나의 시간 구간과 상기 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성한다.

도 11을 참조하면, 동영상 재생 창 내에서 동영상 컨텐츠(10)가 재생된다. 동영상 컨텐츠(10)에 인접하여 동영상 컨텐츠(10)의 타임라인(11)이 표시된다. 타임라인(11)은 동영상 컨텐츠(10)의 전체 재생 시간과 현재 시점을 나타낸다. 타임라인(11)에 인접하여 오디오 신호 창 내에서 동영상 컨텐츠(10)의 오디오 신호 객체(12)가 표시된다. 오디오 신호 객체(12)에 인접하여 단위 시간 조작창(16)이 표시된다. 단위 시간 조작창(16)은 복수의 미리 정해진 단위 시간을 제공한다. 일부 실시예에서, 사용자는 단위 시간 조작창(16)이 제공하는 복수의 미리 정해진 단위 시간을 설정할 수 있다. 도 11에 도시된 바와 같이, 예를 들어, 단위 시간 조작창(16)은 0.3초, 1초, 2초, 4초, AUTO 등과 같은 단위 시간을 제공할 수 있으나, 이에 한정되는 것은 아니다. 단위 시간 조작창(16)의 하부에 자막 편집 창 내에서 동영상 컨텐츠(10)의 적어도 하나의 시간 구간(15)의 목록이 표시된다.

오디오 신호 객체(12) 상에는 현재 시점에 상응하는 기준자(13)가 표시된다. 오디오 신호 객체(12) 상에 동영상 컨텐츠(10)의 오디오 신호 중 사용자에 의해 설정된 시간 구간(15)에 상응하는 영역(14)이 다른 영역과 구별되도록 표시된다.

사용자는 단위 시간 조작창(16)에 대한 터치(30)를 통해서 시간 구간 설정을 위한 단위 시간을 선택한다. 클라이언트(200)는 단위 시간 조작창(16) 상의 복수의 미리 정해진 단위 시간 중 사용자에 의해 선택된 단위 시간을 이용하여 시간 구간(15)을 설정한다.

일부 실시예에서, 사용자는 오디오 신호 창에 대한 터치(30)를 통해서 시간 구간(15)을 설정한다. 일부 실시예에서, 사용자는 오디오 신호 창 및 자막 편집 창에 대한 터치(30)를 통해서 시간 구간(15)을 설정한다. 사용자는 임의의 영역에 대한 터치(30)를 통해서 시간 구간(15)을 설정할 수 있다. 사용자는 시간 구간(15)의 설정 전에 단위 시간 조작창(16)에 터치(30)를 입력하여 특정 단위 시간을 선택한다.

일부 실시예에서, 사용자는 단위 시간 조작창(16)에 대한 터치(30)를 통해서 시간 구간(15)을 설정한다. 이 경우, 상기 터치 입력은 특정 단위 시간의 선택뿐만 아니라, 자막을 표시하기 위한 시간 구간의 종료 시간의 설정을 위한 것이다.

일부 실시예에서, 사용자가 AUTO를 선택하는 경우, 클라이언트(200)는 단위 시간을 자동으로 결정한다. 일부 실시예에서, 클라이언트(200)는 동영상 컨텐츠(10)의 오디오 신호를 기초로 하여 단위 시간을 자동으로 결정한다. 일부 실시예에서, 클라이언트(200)는 다른 사용자에 의해 생성된 자막(다른 사용자에 의해 설정된 적어도 하나의 시간 구간)을 기초로 하여 단위 시간을 자동으로 결정한다. 일부 실시예에서, 클라이언트(200)는 사용자가 자주 사용하는 단위 시간을 분석하고, 상기 분석 결과에 따라 적절한 단위 시간을 자동으로 결정한다.

도 12를 참조하면, 동영상 컨텐츠의 재생 시간 중 제2 시점(t2)에서 사용자의 터치 입력(30)이 제공되면, 제1 시점(t1)과 제2 시점(t2) 사이의 시간이 자막을 표시하기 위한 시간 구간으로 설정된다. 제1 시점(t1)은 제2 시점(t2)으로부터 미리 정해진 단위 시간 이전인 시점으로 결정된다. 먼저, 제2 시점(t2)이 시간 구간의 종료 시간으로 설정되고, 이어서, 제1 시점(t1)이 시간 구간의 시작 시간으로 설정되는 것이다. 도 12는, 예를 들어, 단위 시간으로 4초가 선택된 경우를 도시한다.

도 13을 참조하면, 서버(100)의 자막 제공부(140)는 머신러닝 모듈(141)을 포함한다. 일부 실시예에서, 머신러닝 모듈(141)은 동영상 컨텐츠의 오디오 신호를 학습한다. 일부 실시예에서, 머신러닝 모듈(141)은 다른 사용자에 의해 생성된 자막(다른 사용자에 의해 설정된 적어도 하나의 시간 구간)을 학습한다. 머신러닝 모듈(141)은 하나의 동영상 컨텐츠에 관한 복수의 자막을 학습하거나, 대상 동영상 컨텐츠가 서로 다른 복수의 자막을 학습할 수 있다. 도면 부호 161은 소정의 동영상 컨텐츠를 나타내고, 도면 부호 171은 상기 동영상 컨텐츠에 관한 복수의 자막을 나타낸 것이다. 일부 실시예에서, 머신러닝 모듈(141)은 사용자의 적어도 하나의 시간 구간 설정 패턴을 학습한다. 이러한 학습 결과에 따라, 머신러닝 모듈(141)은 소정의 동영상 컨텐츠의 자막을 표시하기 위한 최적의 시간 구간을 실시간 예측한다. 마찬가지로, 머신러닝 모듈(141)은 시간 구간의 시작 시간을 설정하기 위한 최적의 단위 시간을 실시간 예측할 수도 있다.

클라이언트(200)는 서버(100)로부터 머신러닝을 이용하여 예측된 최적의 시간 구간에 관한 정보를 수신하고, 상기 정보를 사용자가 시간 구간을 설정하는 과정에서 참조할 수 있도록 사용자에게 제공한다.

도 14를 참조하면, 일부 실시예에서, 시간 구간 설정을 위한 사용자의 터치 입력 전에, 오디오 신호 객체(12) 상에 머신러닝을 이용하여 예측된 최적의 시간 구간에 상응하는 영역(17)이 표시된다. 사용자는 상기 영역(17)을 참조하여, 자막을 표시하기 위한 시간 구간의 시작 시간과 종료 시간을 설정할 수 있다. 당연하게도, 사용자는 머신러닝을 이용하여 예측된 최적의 시간 구간과 다르게 시간 구간을 설정할 수도 있다.

또한, 클라이언트(200)는 서버(100)로부터 머신러닝을 이용하여 예측된 최적의 단위 시간에 관한 정보를 수신하고, 상기 정보를 사용자가 시간 구간을 설정하는 과정에서 참조할 수 있도록 사용자에게 제공한다.

도 15를 참조하면, 일부 실시예에서, 시간 구간 설정을 위한 사용자의 터치 입력 전에, 최적의 단위 시간이 단위 시간 조작창(18) 내에 제공된다. 일부 실시예에서, 단위 시간 조작창(18)은 하나의 또는 복수의 최적의 단위 시간을 제공한다. 일부 실시예에서, 단위 시간 조작창(18)은 사용자에 의해 설정된 단위 시간과 머신러닝을 이용하여 예측된 최적의 단위 시간을 동시에 제공한다. 사용자는 단위 시간 조작창(18)을 참조하여 최적의 단위 시간을 선택할 수 있다. 당연하게도, 최적의 단위 시간을 이용하지 않고, 사용자는 사용자에 의해 설정된 단위 시간을 선택할 수도 있다. 명확하게 도시하지 않았으나, 오디오 신호 객체(12) 상에 머신러닝을 이용하여 예측된 최적의 시간 구간에 상응하는 영역(17)이 표시될 수도 있다.

도 16을 참조하면, 동영상 컨텐츠(10)의 적어도 하나의 시간 구간(15)의 목록 중 어느 하나의 시간 구간(15)이 사용자에 의해 선택되면, 동영상 재생 창 내에 동영상 컨텐츠(10)의 상기 시간 구간(15)의 시작 시간에 상응하는 영상이 표시된다. 오디오 신호 창 내에서는 오디오 신호 객체(12) 상에 동영상 컨텐츠(10)의 오디오 신호 중 상기 시간 구간(15)에 상응하는 영역(14)이 표시된다.

도 17을 참조하면, 일부 실시예에서, 사용자는 오디오 신호 객체(12) 상의 시간 구간(15)에 상응하는 영역(14)에 대한 터치를 통해서 시간 구간(15)의 시작 시간 또는 종료 시간을 조정할 수 있다. 예를 들어, 사용자는 상기 영역(14)에 대한 터치 입력 후 소정의 제스처(예를 들어, 드래그)를 입력함으로써 시간 구간(15)의 시작 시간 또는 종료 시간을 조정할 수 있으나, 이에 제한되는 것은 아니다.

도 18을 참조하면, 일부 실시예에서, 오디오 신호 창 내에 오디오 신호 객체(12)에 인접하여 시간 조정 객체(19)가 표시된다. 예를 들어, 시간 조정 객체(19)는 오디오 신호 객체(12)의 좌우에 인접하게 배치될 수 있으나, 이에 한정되는 것은 아니다. 사용자는 시간 조정 객체(19)에 대한 터치를 통해서 시간 구간(15)의 시작 시간 또는 종료 시간을 조정할 수 있다.

도 19를 참조하면, 일부 실시예에서, 동영상 컨텐츠(10)의 적어도 하나의 시간 구간(15)의 목록 중 어느 하나의 시간 구간(15)에 대해서 사용자의 1차 터치(30)가 제공되면, 동영상 재생 창 내에 동영상 컨텐츠(10)의 상기 시간 구간(15)의 시작 시간에 상응하는 영상이 표시되고, 상기 시간 구간(15)에 대해서 사용자의 2차 터치(30)가 제공되면, 사용자는 상기 시간 구간(15)에 상응하는 텍스트(20)를 입력할 수 있다. 일부 실시예에서, 텍스트 입력 창이 동영상 재생 창 상에 오버랩되어 배치된다. 일부 실시예에서, 상기 시간 구간(15)에 인접하여 텍스트 입력 창이 배치된다.

도 20을 참조하면, 일부 실시예에서, 사용자에 의해 소정의 동영상 컨텐츠(10)가 선택되면, 동영상 재생 창에 인접하여 메뉴 창(21)이 표시된다. 예를 들어, 메뉴 창(21)은 자막 선택, 자막 생성 등을 위한 복수의 메뉴를 제공할 수 있으나, 이에 제한되는 것은 아니다. 자막 선택이 선택되면, 메뉴 창(21)의 하부에 자막 선택 창 내에서 동영상 컨텐츠(10)의 적어도 하나의 자막(22)의 목록이 표시된다. 일부 실시예에서, 자막 선택 창 내에 각각의 자막(22)의 생성자, 생성 일자, 자막 언어 또는 자막에 관한 설명 등과 같은 자막 관련 정보가 함께 표시된다. 동영상 컨텐츠(10)의 적어도 하나의 자막(2)의 목록 중 어느 하나의 자막(22)이 사용자에 의해 선택되면, 선택된 자막이 동영상 재생 창 상에 오버랩되어 표시된다.

도 21을 참조하면, 일부 실시예에서, 사용자는 소정의 동영상 컨텐츠(10)의 적어도 하나의 자막(22)의 목록 중 어느 하나의 자막(22)의 편집을 선택한다. 이 경우, 도 8을 참조하여 설명한 자막 생성 화면이 표시되고, 사용자에 의해 선택된 자막(22)은 편집 가능한 상태로 제공된다. 사용자는 상기 자막(22)의 적어도 하나의 시간 구간(15)만을 공유할 수 있다. 오디오 신호 객체(12) 상에는 다른 사용자에 의해 설정된 적어도 하나의 시간 구간(15)에 상응하는 영역(14)이 표시되고, 오디오 신호 객체(12)의 하부에 자막 편집 창 내에서 다른 사용자에 의해 설정된 적어도 하나의 시간 구간(15)의 목록이 표시된다.

사용자는 다른 사용자에 의해 설정된 시간 구간(15)의 시작 시간 또는 종료 시간을 조정할 수 있다. 또는, 사용자는 다른 사용자에 의해 설정된 시간 구간(15)을 삭제할 수 있다. 또는, 사용자는 다른 사용자에 의해 설정되지 않은 시간 구간(15)을 추가적으로 설정할 수 있다.

도 22를 참조하면, 일부 실시예에서, 사용자는 소정의 동영상 컨텐츠(10)의 적어도 하나의 자막(22)의 목록 중 어느 하나의 자막(22)의 편집을 선택한다. 이 경우, 도 8을 참조하여 설명한 자막 생성 화면이 표시되고, 사용자에 의해 선택된 자막(22)은 편집 가능한 상태로 제공된다. . 사용자는 상기 자막(22)의 적어도 하나의 시간 구간(15)과 그에 상응하는 텍스트(23)를 모두 공유할 수 있다. 오디오 신호 객체(12)의 하부에 자막 편집 창 내에서 다른 사용자에 의해 설정된 적어도 하나의 시간 구간(15)과 그에 상응하는 텍스트(23)의 목록이 표시된다.

사용자는 다른 사용자에 의해 설정된 시간 구간(15)의 시작 시간 또는 종료 시간을 조정할 수 있다. 또는, 사용자는 다른 사용자에 의해 설정된 시간 구간(15)을 삭제할 수 있다. 또는, 사용자는 다른 사용자에 의해 설정되지 않은 시간 구간(15)을 추가적으로 설정할 수 있다. 또한, 사용자는 다른 사용자에 의해 입력된 텍스트(23)를 수정할 수 있다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어 모듈로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims

컴퓨터에 의해 실현되는 방법으로서,

동영상 컨텐츠를 재생하는 단계;

머신러닝을 이용하여 실시간 예측된 적어도 하나의 제1 시간 구간에 관한 정보를 제공하는 단계;

사용자의 터치 조작에 따라 적어도 하나의 제2 시간 구간(time duration)을 설정하는 단계;

상기 사용자로부터 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트(text)를 수신하는 단계; 및

상기 적어도 하나의 제2 시간 구간과 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성하는 단계를 포함하되,

상기 사용자의 터치 조작에 따라 적어도 하나의 제2 시간 구간(time duration)을 설정하는 단계는,

상기 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 제2 시간 구간의 시작 시간(start time)으로 설정하고,

상기 사용자의 터치 해제(touch release)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 해제 시점을 상기 제2 시간 구간의 종료 시간(end time)으로 설정하는,

동영상 컨텐츠의 자막 생성 및 공유 방법.
제1항에 있어서,

상기 재생되는 동영상 컨텐츠에 인접하여 상기 동영상 컨텐츠의 오디오 신호를 시각화한 객체를 표시하되, 상기 오디오 신호를 시각화한 객체 상에 현재 시점에 상응하는 기준자를 표시하는 단계를 더 포함하는,

동영상 컨텐츠의 자막 생성 및 공유 방법.
제1항에 있어서,

서버로부터 상기 적어도 하나의 제1 시간 구간에 관한 정보를 수신하는 단계; 및

상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고,

상기 서버는,

머신러닝을 이용하여 상기 동영상 컨텐츠의 오디오 신호 또는 다른 사용자에 의해 설정된 적어도 하나의 시간 구간을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 제1 시간 구간에 관한 정보를 실시간 예측하는,

동영상 컨텐츠의 자막 생성 및 공유 방법.
컴퓨터에 의해 실현되는 방법으로서,

동영상 컨텐츠를 재생하는 단계;

머신러닝을 이용하여 실시간 예측된 적어도 하나의 미리 정해진 단위 시간을 제공하는 단계;

사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계;

상기 사용자로부터 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 수신하는 단계; 및

상기 적어도 하나의 시간 구간과 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성하는 단계를 포함하되,

상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는,

상기 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 시간 구간의 종료 시간(end time)으로 설정하고,

상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간(start time)으로 설정하는,

동영상 컨텐츠의 자막 생성 및 공유 방법.
제4항에 있어서,

상기 재생되는 동영상 컨텐츠에 인접하여 상기 동영상 컨텐츠의 오디오 신호를 시각화한 객체를 표시하되, 상기 오디오 신호를 시각화한 객체 상에 현재 시점에 상응하는 기준자를 표시하는 단계를 더 포함하는,

동영상 컨텐츠의 자막 생성 및 공유 방법.
제4항에 있어서,

상기 재생되는 동영상 컨텐츠에 인접하여 상기 적어도 하나의 미리 정해진 단위 시간을 제공하는 단위 시간 조작 창을 표시하는 단계를 더 포함하고,

상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는,

상기 적어도 하나의 미리 정해진 단위 시간 중 상기 사용자에 의해 선택된 미리 정해진 단위 시간을 이용하여, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간으로 설정하는,

동영상 컨텐츠의 자막 생성 및 공유 방법.
제6항에 있어서,

상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는,

상기 적어도 하나의 미리 정해진 단위 시간 중 상기 사용자의 상기 터치 입력에 의해 선택된 미리 정해진 단위 시간을 이용하여, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간으로 설정하는,

동영상 컨텐츠의 자막 생성 및 공유 방법.
제4항에 있어서,

서버로부터 상기 적어도 하나의 미리 정해진 단위 시간을 수신하는 단계; 및

상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고,

상기 서버는,

머신 러닝을 이용하여 상기 동영상 컨텐츠의 오디오 신호 또는 다른 사용자에 의해 설정된 적어도 하나의 시간 구간을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 미리 정해진 단위 시간을 실시간 예측하는,

동영상 컨텐츠의 자막 생성 및 공유 방법.
제4항에 있어서,

서버로부터 상기 적어도 하나의 미리 정해진 단위 시간을 수신하는 단계; 및

상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고,

상기 서버는,

머신러닝을 이용하여 상기 사용자의 상기 적어도 하나의 시간 구간 설정 패턴을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 미리 정해진 단위 시간을 실시간 예측하는,

동영상 컨텐츠의 자막 생성 및 공유 방법.
컴퓨터와 결합되어, 제1항 내지 제9항 중 어느 하나의 항의 방법을 수행하기 위하여 컴퓨터 판독가능 기록매체에 저장된 애플리케이션.