KR20230019731A - 자막 서비스 제공 장치 및 방법 - Google Patents

자막 서비스 제공 장치 및 방법 Download PDF

Info

Publication number
KR20230019731A
KR20230019731A KR1020210101600A KR20210101600A KR20230019731A KR 20230019731 A KR20230019731 A KR 20230019731A KR 1020210101600 A KR1020210101600 A KR 1020210101600A KR 20210101600 A KR20210101600 A KR 20210101600A KR 20230019731 A KR20230019731 A KR 20230019731A
Authority
KR
South Korea
Prior art keywords
caption
subtitle
language
translation
text
Prior art date
Application number
KR1020210101600A
Other languages
English (en)
Other versions
KR102552533B1 (ko
Inventor
김용필
백준영
이동현
Original Assignee
주식회사 케이티디에스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티디에스 filed Critical 주식회사 케이티디에스
Priority to KR1020210101600A priority Critical patent/KR102552533B1/ko
Publication of KR20230019731A publication Critical patent/KR20230019731A/ko
Application granted granted Critical
Publication of KR102552533B1 publication Critical patent/KR102552533B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/64Addressing
    • H04N21/6405Multicasting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

자막 서비스 제공 장치가 개시된다. 본 발명에 따른 자막 서비스 제공 장치는, 방송사로부터 제공되는 방송 스트림 내 자막 데이터로부터 자막 텍스트를 획득하는 자막 추출 모듈, 및, 상기 자막 텍스트를 이용하여 상기 방송 스트림에 의해 실시간 방송된 방송 컨텐츠의 자막 파일을 생성하고, 상기 방송사가 VOD 서비스 제공자에게 제공한 VOD용 방송 컨텐츠에 상기 자막 파일의 자막이 삽입되도록 상기 자막 파일을 배포하는 자막 생성 모듈을 포함한다.

Description

자막 서비스 제공 장치 및 방법{DEVICE AND METHOD FOR PROVIDING SUBTITLE SERVICE}
본 발명은, 실시간 방송 스트림으로부터 자막 텍스트를 추출하고, 추출된 자막 텍스트를 이용하여 빠른 VOD 자막을 제공할 수 있는 자막 서비스 제공 장치 및 방법에 관한 것이다.
IPTV(Internet Protocol Television)란 초고속 인터넷 망을 이용하여 영화와 방송프로그램과 같은 동영상 컨텐츠와 인터넷 검색 등 다양한 멀티미디어 컨텐츠를 텔레비전 수상기로 제공하는 양방향 방송 및 통신 서비스이다. 시청자는 리모컨을 이용하여 간단하게 인터넷 검색은 물론 영화 감상, 홈쇼핑, 홈뱅킹, 온라인 게임, MP3 등 인터넷이 제공하는 다양한 컨텐츠 및 부가 서비스를 IPTV로부터 제공받을 수 있다.
한편 IPTV(Internet Protocol Television) 서비스는, 방송사로부터 제공되는 실시간 방송 스트림을 서비스 가입자들에게 제공할 뿐만 아니라, 방송사에서 방송한 방송 컨텐츠를 VOD로써 서비스 가입자들에게 제공하기도 한다.
한편 방송사에서는 방송이 끝난 방송 컨텐츠를 VOD 서비스 제공자에게 제공하며, 이것은 빠르면 당일, 보통인 익일에 이루어질 수 있다. 다만 VOD 서비스 제공자가 자막 제공하기 위해서는 수일이 소요되기 때문에, 방송 컨텐츠를 VOD로 제공할 수 있는 시점과 자막을 제공할 수 있는 시점 간에는 시차가 발생하며, 이에 따라 VOD 자막을 빠르게 제공할 수 없는 문제가 있었다.
본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 실시간 방송 스트림으로부터 자막 텍스트를 추출하고, 추출된 자막 텍스트를 이용하여 빠른 VOD 자막을 제공할 수 있는 자막 서비스 제공 장치 및 방법을 제공하기 위함이다.
본 발명에 따른 자막 서비스 제공 장치는, 방송사로부터 제공되는 방송 스트림 내 자막 데이터로부터 자막 텍스트를 획득하는 자막 추출 모듈, 및, 상기 자막 텍스트를 이용하여 상기 방송 스트림에 의해 실시간 방송된 방송 컨텐츠의 자막 파일을 생성하고, 상기 방송사가 VOD 서비스 제공자에게 제공한 VOD용 방송 컨텐츠에 상기 자막 파일의 자막이 삽입되도록 상기 자막 파일을 배포하는 자막 생성 모듈을 포함한다.
이 경우 상기 자막 생성 모듈은, 상기 VOD용 방송 컨텐츠를 제공 받은 상기 VOD 서비스 제공자로부터 상기 방송 컨텐츠에 대한 자막 파일 생성 요청이 수신되면, 상기 자막 텍스트를 이용하여 상기 자막 파일을 생성할 수 있다.
한편 상기 자막 생성 모듈은, 상기 VOD용 방송 컨텐츠 내 오디오로부터 오디오 텍스트를 획득하고, 상기 오디오 텍스트 내 키워드 및 상기 자막 텍스트 내 키워드를 매칭하여 상기 자막 파일의 타임 스탬프를 조절할 수 있다.
한편 상기 자막 텍스트를 이용하여 생성된 한글 자막 파일을 번역하여 하나 이상의 외국어 자막 파일을 생성하는 자막 번역 모듈을 더 포함하고, 상기 자막 생성 모듈은, 상기 하나 이상의 외국어 자막 파일을 배포할 수 있다.
한편 미디어 재생 장치로부터 실시간 외국어 자막의 요청이 수신되면, 상기 미디어 재생 장치에서 시청중인 채널의 자막 스트림을 번역하여 상기 미디어 재생 장치에 전송하는 자막 전송 모듈을 더 포함할 수 있다.
이 경우 상기 자막 전송 모듈은, 복수의 채널에 각각 대응하고, 해당하는 언어를 신청한 미디어 재생 장치들의 세션 정보를 저장하는 복수의 언어 게이지를 각각 포함하는 복수의 번역 에이전트를 포함할 수 있다.
이 경우 상기 복수의 번역 에이전트는, 제1 채널에 대응하는 제1 번역 에이전트를 포함하고, 상기 제1 번역 에이전트는, 상기 자막 추출 모듈이 상기 제1 채널에서 획득한 자막 스트림을 번역하여 제1 채널-제1 언어 자막 스트림 및 제1 채널-제2 언어 자막 스트림을 생성하고, 제1 언어의 언어 게이지에 저장된 세션 정보들에 해당하는 미디어 재생 장치들에 상기 제1 채널-제1 언어 자막 스트림을 멀티캐스트 방식으로 송출하고, 제2 언어의 언어 게이지에 저장된 세션 정보들에 해당하는 미디어 재생 장치들에 상기 제1 채널-제2 언어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다.
이 경우 상기 복수의 번역 에이전트는, 제2 채널에 대응하는 제2 번역 에이전트를 더 포함하고, 상기 제1 번역 에이전트는, 상기 제1 번역 에이전트가 유휴 중인 경우, 상기 제2 채널에서 획득한 자막 스트림을 번역하여 제2 채널-제1 언어 자막 스트림을 생성하고, 상기 제2 번역 에이전트 내 제1 언어의 언어 게이지에 저장된 세션 정보들에 해당하는 미디어 재생 장치들에 상기 제2 채널-제1 언어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다.
한편 상기 자막 번역 모듈은, 상기 한글 자막 파일 내 일부 텍스트에 대응하는 번역 텍스트를 메모리 캐싱으로부터 추출하여 상기 외국어 자막 파일을 생성하고, 상기 번역 텍스트는, 상기 자막 번역 모듈의 엑세스 횟수에 기초하여 갱신될 수 있다.
한편 본 발명에 따른 자막 서비스 제공 방법은, 방송사로부터 제공되는 방송 스트림 내 자막 데이터로부터 자막 텍스트를 획득하는 단계, 상기 자막 텍스트를 이용하여 상기 방송 스트림에 의해 실시간 방송된 방송 컨텐츠의 자막 파일을 생성하는 단계, 및, 상기 방송사가 VOD 서비스 제공자에게 제공한 VOD용 방송 컨텐츠에 상기 자막 파일의 자막이 삽입되도록 상기 자막 파일을 배포하는 단계를 포함한다.
이와 같이 본 발명에 따르면, 방송 스트림으로부터 자막 텍스트를 미리 확보해 놓고, VOD용 방송 컨텐츠가 입고되면 미리 확보된 자막 텍스트를 간단히 처리하여 자막 파일로써 제공할 수 있기 때문에, VOD용 방송 컨텐츠가 입고된 즉시 자막(외국어 자막 포함)을 동반한 VOD 서비스를 제공할 수 있는 장점이 있다.
본 발명에 따르면, 자막 텍스트를 먼저 추출해 놓고, VOD용 방송 컨텐츠의 오디오를 활용하여 타임 스탬프를 조절함으로써, 자막과 음성 간의 싱크가 맞는 VOD 서비스를 제공할 수 있는 장점이 있다. 특히 속기사가 오디오를 듣고 나서 입력하게 되는 방송 자막의 특성 상 딜레이가 발생하는 경우, 실제 방송된 방송 컨텐츠가 편집되어 VOD용으로 제공되는 경우에도, 싱크가 맞는 자막을 제공할 수 있는 장점이 있다.
다양한 채널에 대하여 자막 텍스트를 추출하고 번역을 진행하는 본 발명의 특성 상, 다양한 채널, 다양한 번역 언어, 많은 수의 미디어 재생 장치 들에 대한 효율적인 관리가 요구된다. 그리고 본 발명에 따르면, 채널 별 번역 에이전트, 언어 별 언어 게이지를 이용하여 다양한 언어로의 실시간 번역, 번역된 자막의 송출을 효율적으로 관리할 수 있는 장점이 있다.
또한 본 발명에 다르면 유휴 번역 에이전트의 쓰레드 자원을 효과적으로 활용함으로써, 다른 번역 에이전트의 과부하를 방지하고 한정된 자원을 균형있게 사용하도록 하는 장점이 있다.
도 1은 종래의 VOD 제공 시스템 및 본 발명의 VOD 제공 시스템을 설명하기 위한 도면이다.
도 2는 본 발명에 따른, 자막 서비스 제공 장치의 구성을 설명하기 위한 블록도이다.
도 3은 본 발명에 따른, 자막 서비스 제공 장치의 동작 방법 중 VOD 자막 파일을 생성하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명에 따른, 자막 파일의 싱크를 조절하기 위한 방법을 설명하기 위한 도면이다.
도 5는 본 발명에 따른 외국어 자막 파일을 생성하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명에 따른 실시간 번역 서비스를 제공하는 방법을 설명하기 위한 도면이다.
도 7은 본 발명에 따른 자막 전송 모듈(130)의 동작을 설명하기 위한 도면이다,
도 8a는 언어 게이지를 설명하기 위한 도면이다.
도 8b는 유휴 번역 에이전트의 리소스를 활용하는 방법을 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명을 구현함에 있어서 설명의 편의를 위하여 구성요소를 세분화하여 설명할 수 있으나, 이들 구성요소가 하나의 장치 또는 모듈 내에 구현될 수도 있고, 혹은 하나의 구성요소가 다수의 장치 또는 모듈들에 나뉘어져서 구현될 수도 있다.
도 1은 종래의 VOD 제공 시스템 및 본 발명의 VOD 제공 시스템을 설명하기 위한 도면이다.
방송사는 방송 컨텐츠를 제작, 편집 또는 변경하여 송출할 수 있다. 이 경우 방송사는 방송 스트림을 전송하고, IPTV 서비스 제공자는 방송 스트림을 수신한 후 IPTV 서비스 가입자에게 전송하는 방식으로, 방송 컨텐츠에 대한 실시간 방송이 수행될 수 있다.
또한 방송 스트림에는 청각 장애인을 위한 자막 데이터가 포함될 수 있으며, 이 경우 방송 자막을 포함하는 방송 컨텐츠가 실시간으로 방송될 수 있다. 이러한 방송 자막은 속기사에 의해 제작되며, 방송사는 방송법에 의해 의무적으로 청각장애인을 위한 방송 자막을 제작 및 송출하고 있다.
IPTV 서비스 제공자는 VOD 서비스 제공자를 포함할 수 있다. 그리고 도 1a를 참고하면 방송사는 VOD 서비스 제공자에게 방송이 끝난 방송 컨텐츠를 제공한다. 즉 방송 컨텐츠가 입고되면, VOD 서비스 제공자는 입고된 방송 컨텐츠를 VOD(video on demand)로써 서비스 가입자들에게 제공할 수 있다. 그리고 방송 컨텐츠의 입고는 통상적으로 방송 컨텐츠가 방송된 익일에 이루어 진다.
한편 VOD 서비스 제공자가 VOD 자막을 제공하는 방법으로, 앞서 설명한 방송 자막을 방송사로부터 입수하는 방법이 고려될 수 있다. 다만 실시간 방송에서 청각 장애인을 위한 방송 자막을 제공하는 것이 방송사의 의무인 것과는 달리, VOD 자막을 제공하는 것은 방송사의 의무가 아니므로, VOD 서비스 제공자는 방송사가 방송 자막을 제공하는 경우에 한해서만 VOD 자막을 제공할 수 있는 문제가 발생한다.
또한 VOD 서비스 제공자가 VOD 자막을 제공하는 방법으로, 입고된 방송 컨텐츠의 오디오를 텍스트로써 추출하는 방안이 고려될 수 있다. 다만 이것에는 추가적인 시간 및 비용이 요구되며, STT(Speech To Text) 장치에 의한 텍스트 추출의 경우에는 그 정확도가 현저히 낮아지기 때문에 추가적인 처리가 필요한 문제가 있다.
따라서 VOD 자막이 완성되기 까지는 수 일이 소요되며, 방송 컨텐츠는 이미(예를 들어 방송 컨텐츠가 방송된 익일) 입고되었음에도 불구하고 VOD 자막을 곧바로 제공할 수 없는 문제가 발생한다.
한편 도 1b에서는 본 발명에 따른 VOD 제공 시스템을 도시하였다.
본 발명에서는, 자막 서비스 제공 장치가 방송 스트림 내 자막 데이터로부터 자막 텍스트를 미리 추출하고, 이후에 방송 컨텐츠가 입고되면 미리 추출해놓은 자막 텍스트를 간단히 처리하여 VOD 자막을 제공하는 방식을 취한다. 이에 따라 본 발명에서는 VOD의 입고 후 30분 이내에, VOD 자막의 제공 및 VOD 자막을 이용하여 생성된 번역 자막의 제공까지 가능하다.
도 2는 본 발명에 따른, 자막 서비스 제공 장치의 구성을 설명하기 위한 블록도이다.
자막 서비스 제공 장치(100)는 데이터베이스(110), 자막 추출 모듈(120), 자막 전송 모듈(130), 자막 번역 모듈(140) 및 자막 생성 모듈(150)을 포함할 수 있다.
데이터베이스(110)는 자막 텍스트나, 기타 본 발명의 동작에 필요한 데이터를 저장할 수 있다.
자막 추출 모듈(120)은 방송사에 조인하여 방송 스트림을 수신하고, 방송 스트림으로부터 자막 데이터를 추출함으로써, 자막 텍스트를 획득할 수 있다. 이 경우 자막 추출 모듈(120)은 자막 텍스트를 데이터베이스(110)에 저장할 수 있다.
자막 전송 모듈(130)은 미디어 재생 장치로부터 외국어 자막 요청을 수신할 수 있다. 또한 자막 전송 모듈(130)은 자막 추출 모듈(120)로부터 자막 스트림을 수신하고, 수신된 자막 스트림을 번역하여 외국어 자막 스트림을 생성한 후 미디어 재생 장치에 전송할 수 있다. 여기서 자막 전송 모듈(130)이 자막 스트림을 번역한다는 것의 의미는, 자막 전송 모듈(130)이 자막 스트림을 직접 번역하는 것뿐만 아니라, 다른 모듈이나 장치(예를 들어 자막 번역 모듈(140) 또는 번역기 등)로 자막 스트림을 전송하여 자막 스트림이 번역되도록 하는 것을 의미할 수 있다.
자막 번역 모듈(140)은, 자막 스트림 또는 데이터베이스(110)에 저장된 자막 텍스트를 번역할 수 있다. 여기서 자막 번역 모듈(140)이 번역을 한다는 것의 의미는, 자막 번역 모듈(140)이 직접 번역을 수행하는 것뿐만 아니라, 다른 장치(번역기 등)로 자막 스트림 또는 자막 텍스트를 전송하는 것을 의미할 수도 있다.
자막 생성 모듈(150)은 자막 텍스트를 이용하여 자막 파일을 생성하고, VOD용 방송 컨텐츠에 자막 파일이 삽입되도록 자막 파일을 배포할 수 있다. 또한 자막 생성 모듈(150)은 자막 파일의 타임 스탬프를 조절함으로써, VOD용 방송 컨텐츠와 자막 파일 간의 싱크를 조절할 수 있다.
한편 자막 서비스 제공 장치(100)는, 통신부, 제어부 및 메모리를 포함할 수 있다.
여기서 통신부는 유/무선 네트워크를 통하여 자막 서비스 제공 장치(100)를 다른 장치와 연결하기 위한 인터페이스를 제공할 수 있다. 이 경우 자막 서비스 제공 장치(100)는 통신부를 통하여 다른 장치와 데이터를 송신 및 수신할 수 있다.
한편 제어부는 자막 서비스 제공 장치(100)의 전반적인 동작을 제어할 수 있다. 또한 앞서 설명한 자막 추출 모듈(120), 자막 전송 모듈(130), 자막 번역 모듈(150) 및 자막 생성 모듈(150)은, 제어부의 세부 구성 요소일 수 있다.
한편 메모리는 자막 서비스 제공 장치(100)의 동작을 위한 각종 데이터를 저장할 수 있으며, 앞서 설명한 데이터베이스(110)는 메모리에 의해 구현될 수 있다.
도 3은 본 발명에 따른, 자막 서비스 제공 장치의 동작 방법 중 VOD 자막 파일을 생성하는 방법을 설명하기 위한 도면이다.
자막 추출 모듈(120)은 방송사로부터 제공되는 방송 스트림 내 자막 데이터로부터 자막 텍스트를 획득할 수 있다(S305).
구체적으로 자막 추출 모듈(120)은 라우터에 IGMP 조인하여 방송 스트림을 수신할 수 있다. 여기서 방송 스트림은, 방송 프로그램 등, 방송 컨텐츠의 실시간 방송을 위한 것으로, 청각 장애인을 위한 자막 데이터를 포함할 수 있다. 여기서 자막 데이터는, 속기사가 방송 컨텐츠 내 오디오게 기반하여 생성한 방송 자막을 방송 스트림에 삽입한 것일 수 있다.
그리고 자막 추출 모듈(120)은 방송 스트림으로부터 자막 데이터를 추출하고 추출된 자막 데이터를 복호화 함으로써 자막 텍스트를 획득할 수 있다. 또한 자막 추출 모듈(120)는 자막 텍스트를 데이터베이스(110)에 저장할 수 있다(S310).
한편 자막 추출 모듈(120)은 자막 텍스트와 함께 타임 스탬프를 저장할 수 있다. 여기서 타임 스탬프는 자막 텍스트를 구성하는 요소(문장, 단어, 형태소 등)의 시점을 나타내기 위한 것으로, 자막 텍스트에 매칭되어 저장될 수 있다.
한편 자막 추출 모듈(120)은 복수의 자막 추출 에이전트를 포함할 수 있다. 여기서 자막 추출 에이전트는 해당하는 채널에 조인하여 방송 스트림을 수신하고, 방송 스트림으로부터 자막 텍스트를 획득할 수 있다.
예를 들어 제1 자막 추출 에이전트는 제1 채널에 조인하여 제1 채널의 방송 스트림을 수신하고, 제1 채널의 방송 스트림으로부터 제1 채널의 자막 텍스트를 획득할 수 있다. 또한 제2 자막 추출 에이전트는 제2 채널에 조인하여 제2 채널의 방송 스트림을 수신하고, 제2 채널의 방송 스트림으로부터 제2 채널의 자막 텍스트를 획득할 수 있다.
또한 자막 추출 모듈(120)은 획득된 자막 텍스트를 방송 컨텐츠 별로 분리하여 저장할 수 있다. 예를 들어 제1 자막 추출 에이전트는 제1 채널에서 방송된 제1 방송 컨텐츠(예를 들어 A 드라마)의 자막 텍스트를 데이터베이스(110)에 저장하고, 제1 채널에서 방송된 제2 방송 컨텐츠(예를 들어 B 예능 프로그램)의 자막 텍스트를 데이터베이스(110)에 저장할 수 있다.
한편 IPTV 서비스 제공자는 IPTV 서비스를 제공하는 주체 또는 IPTV 서비스를 제공하는 주체가 운영하는 시스템을 의미하는 것으로, 자막 서비스 제공 장치(100), VOD 서비스 제공자(200) 및 자막 다운로드 서버(300)를 포함할 수 있다.
VOD 서비스 제공자(200)는 VOD 서비스를 위하여, 방송사로부터 방송 스트림에 의해 실시간 방송된 방송 컨텐츠를 제공 받을 수 있다. 예를 들어 2021년 2월 15일 “미스터 문샤인 1회”라는 드라마가 방송된 이후, VOD 서비스 제공자(200)는 방송사로부터 “미스터 문샤인 1회”라는 방송 컨텐츠를 수신할 수 있다.
이하에서는 VOD 서비스를 위하여 방송사가 VOD 서비스 제공자(200)에 제공한 방송 컨텐츠를 VOD용 방송 컨텐츠라 명칭한다.
한편 자막 생성 모듈(150)은, 자막 텍스트를 이용하여 방송 스트림에 의해 실시간 방송된 방송 컨텐츠의 자막 파일을 생성할 수 있다.
구체적으로, VOD용 방송 컨텐츠가 입고되면, VOD 서비스 제공자(200)는 입고된 VOD용 방송 컨텐츠에 대한 자막 생성 요청을 자막 서비스 제공 장치(100)에 전송할 수 있다(S315).
그리고, VOD용 방송 컨텐츠를 제공받은 VOD 서비스 제공자(200)로부터 해당하는 방송 컨텐츠에 대한 자막 파일 생성 요청이 수신되면, 자막 생성 모듈(150)은 데이터베이스(110)에 저장된 자막 텍스트를 이용하여 자막 파일을 생성할 수 있다.
구체적으로 자막 생성 모듈(150)은 자막 파일 생성이 요청된 방송 컨텐츠의 자막 텍스트를 데이터베이스(110)로부터 독출하고(S320), 독출된 자막 텍스트를 변환하여 자막 파일을 생성할 수 있다(S325). 여기서 자막 파일은 smi, srt, vtt 등의 확장자를 가질 수 있으며, 자막 텍스트와 매칭되어 기 저장된 타임 스탬프 역시 포함할 수 있다.
한편 자막 생성 모듈(150)에서 생성한 자막 파일과 VOD용 방송 컨텐츠의 오디오 간에는 싱크가 맞지 않을 수 있다.
자막 생성 모듈(150)에서 생성한 자막 파일과 VOD용 방송 컨텐츠 내 오디오 간에 싱크가 맞지 않는 이유는 다음과 같다.
먼저 VOD용 방송 컨텐츠의 시작 시점과 자막 파일의 시작 시점을 일치 시키기 어렵다. 그리고 자막 생성 모듈(150)에서 생성한 자막 파일의 타임 스탬프는 속기사가 생성한 방송 자막에 기반하여 생성된 것인데, 속기사가 오디오를 듣고 나서 입력하게 되는 방송 자막의 특성 상 딜레이가 발생하게 된다.
또한 방송사가 실시간 방송한 방송 컨텐츠와 VOD용 방송 컨텐츠는, 동일한 방송 프로그램임에도 불구하고 세부적인 차이가 발생하는 경우가 많다. 예를 들어 VOD 서비스 제공자(200)에 제공한 방송 컨텐츠에서는 중간 광고가 삭제되거나 일부 씬(scene)이 편집될 수 있기 때문에, 동일한 방송 프로그램에 대한 방송 컨텐츠임에도 불구하고 방송사가 실시간 방송한 방송 컨텐츠와 VOD용 방송 컨텐츠 간에는 차이가 발생하며, 따라서 자막 생성 모듈(150)에서 생성한 자막 파일과 VOD용 방송 컨텐츠 내 오디오 간에는 싱크가 맞지 않게 된다.
따라서 자막 생성 모듈(150)은 자막 파일의 싱크를 조절할 수 있다(S330).
이와 관련해서는 도 4를 참고하여 구체적으로 설명한다.
도 4는 본 발명에 따른, 자막 파일의 싱크를 조절하기 위한 방법을 설명하기 위한 도면이다.
자막 생성 모듈(150)은 자막 싱크 모듈(410)을 포함할 수 있다.
자막 싱크 모듈(410)은 VOD 용 방송 컨텐츠에서 오디오를 추출하고, 오디오의 특징 벡터(예를 들어 MFCC Feature)를 추출할 수 있다(410).
이 경우 자막 싱크 모듈(410)은 음향 모델(Acoustic Model)을 이용하여 오디오 내 음성을 음소 단위로 텍스트 변환할 수 있다(420). 여기서 음향 모델(Acoustic Model)은 은닉 마르코프 모델(Hidden Markov Model) 및 심층 신경 망(Deep Neural Network, DNN) 기반의 음향 모델로, 추출된 특징 벡터를 해당하는 음소로 분류하도록 학습된 모델일 수 있다.
또한 자막 싱크 모듈(410)은, N-gram 확률언어모델을 이용하여 특정 단어의 앞과 뒤에 어떠한 단어가 나올지 확률적으로 분석하는 언어 모델(Language Model) 및 단어 사전 데이터 전처리 모음인 워드 렉시콘(Word Lexicon)을 적용하고, WFST(Weighted Finite State Transducer) 기반으로 디코딩을 수행하여 오디오 텍스트를 획득할 수 있다(430, 440, 450). 즉 오디오 텍스트란, VOD용 방송 컨텐츠 내 오디오로부터 음성을 추출하고, 추출된 음성을 텍스트로 변환한 것을 의미할 수 있다. 이 경우 자막 싱크 모듈(410)은 오디오 텍스트와 함께 타임 스탬프를 저장할 수 있다. 여기서 타임 스템프는 오디오 텍스트를 구성하는 요소(문장, 단어, 형태소 등)의 시점을 나타내기 위한 것으로, 오디오 텍스트에 매칭되어 저장될 수 있다.
한편 자막 싱크 모듈(410)은 오디오 텍스트 내 키워드 및 자막 파일 내 키워드를 매칭하여 자막 파일의 타임 스탬프를 조절할 수 있다(460).
구체적으로 자막 싱크 모듈(410)은, 키워드 동일 여부 및 자막 내 키워드의 위치에 기반하여, 오디오 텍스트 및 자막 파일로부터 동일한 키워드를 추출할 수 있다.
그리고 자막 싱크 모듈(410)은, 자막 파일 내 키워드의 위치가 오디오 텍스트 내 동일 키워드의 위치로 변환되도록, 자막 파일의 타임 스탬프를 조절할 수 있다(470). 이에 따라 타임 스탬프가 조절된 최종 자막 파일이 생성될 수 있다.
한편 방송사가 VOD 서비스 제공자에게 제공한 VOD용 방송 컨텐츠에는, 방송 스트림에 의해 실시간 방송된 방송 컨텐츠의 자막 파일이 삽입되어야 한다. 여기서 삽입되는 자막 파일은, 도 4에서 설명한 처리에 따라 자막 파일의 타임 스탬프가 조절된 최종 자막 파일을 포함할 수 있다.
그리고 자막 생성 모듈(150)은, 방송사가 VOD 서비스 제공자(200)에게 제공한 VOD용 방송 컨텐츠에 실시간 방송된 방송 컨텐츠의 자막 파일이 삽입되도록 자막 파일을 배포할 수 있다.
여기서 자막 파일을 배포한 다는 것은, VOD 서비스 제공자(200)가 VOD용 방송 컨텐츠에 자막 파일을 삽입하여 VOD 서비스를 제공할 수 있도록, 자막 파일을 제공하는 것을 의미할 수 있다.
예를 들어 자막 생성 모듈(150)은 VOD 서비스 제공자(200)에게 자막 파일을 직접 전송하거나, 자막 다운로드 서버(300)에 자막 파일을 업로드 하여 VOD 서비스 제공자(200)가 사용하도록 할 수 있다. 이 경우 VOD 서비스 제공자(200)는 VOD용 방송 컨텐츠에 자막 파일의 자막을 삽입하여 VOD 서비스를 제공할 수 있다.
다른 예를 들어 자막 서비스 제공 장치(100)가 직접 VOD 서비스를 제공하는 경우에는, 자막 서비스 제공 장치(100) 내 데이터베이스에 자막 파일을 저장할 수 있다.
다시 도 3으로 돌아가서, 자막 서비스 제공 장치(100)는 생성된 자막 파일(한글 자막 파일)을 번역하여 외국어 자막 파일을 생성할 수 있다.
구체적으로, 자막 파일이 생성되면, 자막 생성 모듈(150)은 생성된 자막 파일에 대한 외국어 번역 요청을 자막 번역 모듈(140)에 전송할 수 있다(S335). 이 경우 자막 번역 모듈(140)은 자막 텍스트를 이용하여 생성된 한글 자막 파일을 번역하여 하나 이상의 외국어 자막 파일을 생성할 수 있다(S340).
외국어 자막 파일을 생성하는 방법에 대해서는 도 5를 참고하여 구체적으로 설명한다.
도 5는 본 발명에 따른 외국어 자막 파일을 생성하는 방법을 설명하기 위한 도면이다.
자막 번역 모듈(140)은 자막 말뭉치를 이용하여 한글 자막 파일 내 문장들을 분리할 수 있다(S501). 이 경우 자막 번역 모듈(140)은 메모리 캐싱(1010)에 저장된 말뭉치 캐싱을 이용하여 문장들을 분리하거나, 메모리 캐싱(1010) 내 해당하는 말뭉치 캐싱이 존재하지 않는 경우에는 데이터 웨어 하우스(1020)에 저장된 말뭉치 데이터 셋을 이용하여 한글 자막 파일 내 문장들을 분리할 수 있다.
한편 문장은 형태소 들의 집합으로 구성되며, 형태소는 단어, 어간 및 어미로 구성될 수 있다.
이 경우 자막 번역 모듈(140)은 문장을 구성하는 형태소, 형태소를 구성하는 단어, 어간 및 어미를 N-gram 확률 언어 모델에 제공할 수 있다. 이 경우 N-gram 확률 언어 모델은 형태소, 단어, 어간 및 어미를 분석하여 문장이 종료되는 지점을 획득하고, 한글 자막 파일 내 문장들을 번역에 적합하도록 분리할 수 있다.
한편 기존에 번역되었던 번역 텍스트는 자막 데이터 셋을 구성하여 메모리 캐싱(1010)에 저장될 수 있다. 여기서 기존에 번역되었던 번역 텍스트란, 문장, 형태소, 단어 등을 포함할 수 있으며, 한글 텍스트와 한글 텍스트에 상응하는 번역 텍스트가 매칭되어 저장될 수 있다.
한편 메모리 캐싱(1010)에 저장된 번역 텍스트는, 자막 번역 모듈(140)의 엑세스 횟수에 기초하여 갱신될 수 있다.
구체적으로 메모리 캐싱(1010) 내 데이터가 가득 차는 경우, 메모리 캐싱(1010)은 자막 번역 모듈(140)에 의해 가장 적게 엑세스된 번역 텍스트를 삭제함으로써 저장 공간을 확보할 수 있다. 즉 메모리 캐싱(1010)에는 자막 번역 모듈(140)에 의해 가장 많이 엑세스되는 번역 텍스트들이 저장될 수 있다.
그리고 자막 번역 모듈(140)은 한글 자막 파일 내 텍스트가 메모리 캐싱(1010)에 존재하는지 확인할 수 있다(S502). 또한 한글 자막 파일 내 일부 텍스트가 메모리 캐싱(1010)에 존재하는 경우, 자막 번역 모듈(140)은 일부 텍스트에 대응하는 번역 텍스트를 메모리 캐싱으로부터 추출할 수 있다.
한편 자막 번역 모듈(140)은 문장 내 사투리가 존재하는 경우, 사투리를 표준어로 변환할 수 있다(S503). 이 경우 자막 번역 모듈(140)은 메모리 캐싱(1010)에 저장된 표준어 캐싱을 이용하여 사투리를 표준어로 변환하거나, 메모리 캐싱(1010) 내 해당하는 표준어 캐싱이 존재하지 않는 경우에는 데이터 웨어 하우스(1020)에 저장된 표준어-사투리 데이터 셋을 이용하여 문장 내 사투리를 표준어로 변환할 수 있다.
한편 S501, S502, S503을 거쳐 전처리 문장(510)이 생성되면, 자막 번역 모듈(140)은 전처리 문장(510)을 번역기(1030)에 제공할 수 있다.
이 경우 번역기(1030)는 전처리 문장(510)들을 하나 이상의 외국어로 번역하고, 자막 번역 모듈(1040)은 번역 결과에 기초하여 하나 이상의 외국어 자막 파일을 생성할 수 있다.
한편 앞서 설명한 전처리 문장의 생성 및 번역은 AI 학습 모델(1040)에 기반하여 수행될 수도 있다.
다시 도 3으로 돌아가서, 자막 번역 모듈(1040)은 자막 생성 모듈(150)에 하나 이상의 외국어 자막 파일을 전송할 수 있다(S345).
이 경우 자막 생성 모듈(150)은 하나 이상의 외국어 자막 파일을 배포할 수 있다(S350).
이와 같이 본 발명에 따르면, 방송 스트림으로부터 자막 텍스트를 미리 확보해 놓고, VOD용 방송 컨텐츠가 입고되면 미리 확보된 자막 텍스트를 간단히 처리하여 자막 파일로써 제공할 수 있기 때문에, VOD용 방송 컨텐츠가 입고된 즉시 자막(외국어 자막 포함)을 동반한 VOD 서비스를 제공할 수 있는 장점이 있다.
또한 본 발명에 따르면, VOD용 방송 컨텐츠가 입고된 경우 자막 파일을 생성하고 자막 싱크를 맞추는 등의 처리를 수행함으로써, 리소스를 절약할 수 있는 장점이 있다. 즉 자막 텍스트의 추출은 다양한 채널에 대하여 24시간 지속적으로 수행하는데 반해, 자막 파일의 생성 및 자막 싱크의 처리는 VOD 서비스의 제공 대상인 방송 컨텐츠에만 수행함으로써, 불필요한 비용을 절약할 수 있는 장점이 있다.
또한 본 발명에 따르면, 자막 텍스트를 먼저 추출해 놓고, VOD용 방송 컨텐츠의 오디오를 활용하여 타임 스탬프를 조절함으로써, 자막과 음성 간의 싱크가 맞는 VOD 서비스를 제공할 수 있는 장점이 있다. 특히 속기사가 오디오를 듣고 나서 입력하게 되는 방송 자막의 특성 상 딜레이가 발생하는 경우, 실제 방송된 방송 컨텐츠가 편집되어 VOD용으로 제공되는 경우에도, 싱크가 맞는 자막을 제공할 수 있는 장점이 있다.
또한, 다양한 채널에 대하여 자막 텍스트를 추출하고 번역을 진행하는 본 발명의 특성 상, 매우 많은 번역이 진행된다. 그리고 본 발명에 따르면 자막 번역 모듈의 엑세스 횟수에 기초하여 메모리 캐싱을 갱신하고, 메모리 캐싱을 이용하여 중복 번역을 방지함으로써 빠른 번역을 가능하게 하는 장점이 있다.
도 6은 본 발명에 따른 실시간 번역 서비스를 제공하는 방법을 설명하기 위한 도면이다.
자막 추출 모듈(120)은 방송사로부터 제공되는 방송 스트림 내 자막 데이터로부터 자막 텍스트를 획득할 수 있다(S605). 한편 방송 스트림과 마찬가지로 자막 데이터 역시 스트림의 형태로 전송되는 바, 이하에서는 자막 데이터를 자막 스트림이라고 명칭하도록 한다.
이 경우 자막 추출 모듈(120)은 자막 스트림을 자막 전송 모듈(130)에 전송할 수 있다(S610). 이 경우 자막 전송 모듈(130)은 자막 추출 모듈(120)로부터 미디어 재생 장치(400)에서 시청중인 채널의 자막 스트림을 수신하고, 작업 큐에 수신된 자막 스트림을 임시 저장할 수 있다(S615).
한편 미디어 재생 장치(400)는 방송 스트림을 디코딩하여 방송 컨텐츠를 실시간으로 출력하는 장치로, TV 또는 셋탑 박스를 포함할 수 있다.
한편 사용자로부터 외국어 자막을 요청하는 입력이 수신되면, 미디어 재생 장치(400)는 사용자에 의해 지정된 번역 언어를 포함하는 외국어 자막 요청을 자막 전송 모듈(130)에 전송할 수 있다(S620).
한편 미디어 재생 장치(400)로부터 외국어 자막 요청이 수신되면, 자막 전송 모듈(130)는 번역 에이전트의 실행 여부를 확인할 수 있다(S625). 여기서 번역 에이전트의 실행 여부를 확인한 다는 것은, 해당하는 채널에 대응하는 번역 에이전트가 번역 서비스의 제공이 가능한지를 확인하는 것을 의미할 수 있다.
예를 들어 미디어 재생 장치(400)로부터 실시간 외국어 자막 요청이 수신되었으나 미디어 재생 장치(400)에서 시청하는 채널에서 광고가 방송되고 있는 관계로 자막 스트림이 존재하지 않는 경우가 발생할 수 있다. 이 경우 자막 전송 모듈(130)은 미디어 재생 장치(400)에 번역 불가의 메시지를 전송하거나, 이후에 방송 프로그램이 방송되어 자막 스트림이 수신되는 경우에 번역 서비스를 제공할 수 있다.
한편 미디어 재생 장치(400)로부터 실시간 외국어 자막 요청이 수신되면, 자막 전송 모듈(130)은 자막 스트림을 번역하여 미디어 재생 장치(400)에 전송할 수 있다(S630, S635, S640).
여기서 자막 전송 모듈(130)이 자막 스트림을 번역한다는 것의 의미는, 자막 전송 모듈(130)이 자막 스트림을 직접 번역하는 것뿐만 아니라, 다른 모듈이나 장치(예를 들어 자막 번역 모듈(140) 또는 번역기(1030) 등)로 자막 스트림을 전송하여 자막 스트림이 번역되도록 하는 것을 의미할 수 있다.
자막 전송 모듈(130)의 동작에 대해서는 도 7을 참고하여 구체적으로 설명한다.
도 7은 본 발명에 따른 자막 전송 모듈(130)의 동작을 설명하기 위한 도면이다,
자막 전송 모듈(130)은 복수의 번역 에이전트(715, 725)를 포함할 수 있다. 여기서 복수의 번역 에이전트(715, 725)는, 복수의 채널에 각각 대응할 수 있다. 예를 들어 제1 번역 에이전트(715)는 제1 채널의 자막 스트림에 대한 번역 관리를 수행하는 에이전트이고, 제2 번역 에이전트(725)는 제2 채널의 자막 스트림에 대한 번역 관리를 수행하는 에이전트일 수 있다.
도 7에서는 두 개의 번역 에이전트를 도시하였으나 이에 한정되지 않으며, 번역 에이전트는 채널 별로 존재할 수 있다.
한편 복수의 번역 에이전트(715, 725)는, 해당하는 언어를 신청한 미디어 재생 장치들의 세션 정보를 저장하는 복수의 언어 게이지를 각각 포함할 수 있다.
이와 관련해서는 도 8a를 함께 참고하여 설명한다.
도 8a는 언어 게이지를 설명하기 위한 도면이다.
복수의 번역 에이전트 중 제1 번역 에이전트(715)의 예를 들어 설명하면, 제1 번역 에이전트(715)는 복수의 언어에 각각 대응하는 복수의 언어 게이지를 포함할 수 있다.
예를 들어 제1 언어 게이지(810)는 중국어에 대응하는 언어 게이지고, 제2 언어 게이지(820)는 영어에 대응하는 언어 게이지이며, 제3 언어 게이지(830)는 한국어에 대응하는 언어 게이지일 수 있다.
한편 자막 서비스 제공 장치(100)에 접속된 복수의 미디어 재생 장치들은 사용자에 의해 지정된 번역 언어를 포함하는 외국어 자막의 요청을 전송할 수 있다.
이 경우 제1 채널을 시청중인 셋탑 박스들로부터 수신된 외국어 자막 요청이 제1 번역 에이전트(715)로 전송될 수 있다.
이 경우 제1 번역 에이전트(715)는 외국어 자막 요청으로부터 번역 언어를 획득하고, 번역 언어에 대응하는 언어 게이지에 미디어 재생 장치의 세션 정보(미디어 재생 장치의 IP 정보)를 저장할 수 있다.
예를 들어 제1 채널을 시청하는 제1 미디어 재생 장치가 중국어를 지정한 외국어 자막 요청을 전송한 경우, 제1 번역 에이전트(715)는 제1 미디어 재생 장치의 세션 정보를 중국어에 대응하는 제1 언어 게이지(810)에 저장할 수 있다. 다음으로 제1 채널을 시청하는 제2 미디어 재생 장치가 영어를 지정한 외국어 자막 요청을 전송한 경우, 제1 번역 에이전트(715)는 제2 미디어 재생 장치의 세션 정보를 중국어에 대응하는 제2 언어 게이지(820)에 저장할 수 있다. 다음으로 제1 채널을 시청하는 제3 미디어 재생 장치가 중국어를 지정한 외국어 자막 요청을 전송한 경우, 제1 번역 에이전트(715)는 제3 미디어 재생 장치의 세션 정보를 중국어에 대응하는 제1 언어 게이지(810)에 저장할 수 있다.
한편 제1 번역 에이전트(715)는 언어 게이지에 세션 정보가 존재하는 경우 해당하는 언어로의 번역을 시작할 수 있다.
예를 들어 제1 번역 에이전트(715)는, 제1 언어 게이지(810)에 세션 정보가 존재하지 않는 경우 중국어 번역을 시작하지 않으며, 제1 언어 게이지(810)에 세션 정보가 하나라도 존재하는 경우 중국어 번역을 시작할 수 있다.
제1 번역 에이전트(715)는 자막 추출 모듈(120)이 제1 채널에서 획득하는 자막 스트림(즉, 제1 채널에 조인한 제1 자막 추출 에이전트(710)가 추출한 자막 스트림)을 수신하여 해당하는 언어로 번역할 수 있다. 구체적인 번역 방법은 도 5에서 설명하였는 바 이하에서는 생략하도록 한다.
이하에서는 제1 언어 게이지(810)에 세션 정보가 존재하고, 제2 언어 게이지(820)에 세션 정보가 존재하는 상황을 가정하여 설명한다.
제1 번역 에이전트(715)는, 자막 추출 모듈(120)이 제1 채널에서 획득한 자막 스트림을 각각 제1 언어 및 제2 언어로 번역하여 제1 채널-제1 언어 자막 스트림 및 제1 채널-제2 언어 자막 스트림을 생성할 수 있다.
그리고 제1 번역 에이전트(715)는, 제1 언어의 언어 게이지에 저장된 세션 정보들에 해당하는 미디어 재생 장치들에 제1 채널-제1 언어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다(S645).
예를 들어 중국어에 대응하는 언어 게이지에 제1 내지 제10 미디어 재생 장치의 세션 정보가 저장되어 있는 경우, 제1 번역 에이전트(715)는 제1 내지 제10 미디어 재생 장치들의 IP 정보들을 이용하여 제1 내지 제10 미디어 재생 장치들에 제1 채널-중국어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다.
또한 제1 번역 에이전트(715)는 제2 언어의 언어 게이지에 저장된 세션 정보들에 해당하는 미디어 재생 장치들에 제1 채널-제2 언어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다(S645).
예를 들어 영어에 대응하는 언어 게이지에 제11 내지 제25 미디어 재생 장치의 세션 정보가 저장되어 있는 경우, 제1 번역 에이전트(715)는 제11 내지 제25 미디어 재생 장치들의 IP 정보들을 이용하여 제11 내지 제25 미디어 재생 장치들에 제1 채널-영어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다.
이 경우 제1 번역 에이전트(715)는, 제1 멀티 캐스트 채널을 통하여 제1 내지 제10 미디어 재생 장치들에 제1 채널-중국어 자막 스트림을 멀티캐스트 방식으로 송출하고, 제2 멀티 캐스트 채널을 통하여 제11 내지 제25 미디어 재생 장치 들에 제1 채널-영어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다.
한편 제1 채널-영어 자막 스트림을 멀티캐스트 방식으로 송출하는 중, 영어에 대응하는 언어 게이지에 제26 미디어 재생 장치의 세션 정보가 추가될 수 있다. 이 경우 제1 번역 에이전트(715)는 제11 내지 제26 미디어 재생 장치들의 IP 정보들을 이용하여 제11 내지 제26 미디어 재생 장치들에 제1 채널-영어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다.
또한 제1 채널-중국어 자막 스트림을 멀티캐스트 방식으로 송출하고 제1 채널-영어 자막 스트림을 멀티 캐스트 방식으로 송출하는 중, 프랑스어에 대응하는 언어 게이지에 제27 미디어 재생 장치의 세션 정보가 저장될 수 있다. 이 경우 제1 번역 에이전트(715)는, 자막 추출 모듈(120)이 제1 채널에서 획득한 자막 스트림에 대한 제3 언어(프랑스 어)로의 번역을 시작하여, 제1 채널-제3 언어(프랑스어) 자막 스트림을 추가적으로 생성할 수 있다. 이 경우 제1 번역 에이전트(715)는, 제1 멀티 캐스트 채널을 통하여 제1 내지 제10 미디어 재생 장치들에 제1 채널-중국어 자막 스트림을 멀티캐스트 방식으로 송출하고, 제2 멀티 캐스트 채널을 통하여 제11 내지 제26 미디어 재생 장치 들에 제1 채널-영어 자막 스트림을 멀티캐스트 방식으로 송출하며, 제3 멀티 캐스트 채널을 통하여 제27미디어 재생 장치에 제1 채널-프랑스어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다.
다음은 유휴 번역 에이전트의 리소스를 활용하는 방법에 대하여 도 8b를 참고하여 설명한다.
도 8b는 유휴 번역 에이전트의 리소스를 활용하는 방법을 설명하기 위한 도면이다.
복수의 번역 에이전트 각각은 독립적으로 구성되며 리소스가 할당된다. 그리고 유휴 번역 에이전트란 현재 번역을 하고 있지 않은(즉 직접 번역을 하고 있지 않으며 다른 모듈 또는 장치에 번역을 요청하고 있지도 않은) 번역 에이전트일 수 있다.
즉 유휴 번역 에이전트란, 번역 에이전트에 대응하는 채널에 대한 번역 서비스를 제공하고 있지 않은 상태의 번역 에이전트를 의미할 수 있다. 예를 들어 제1 채널이 광고 중인 관계로 제1 번역 에이전트가 제1 채널에 대한 번역 서비스를 제공하고 있지 않은 경우, 제1 번역 에이전트는 유휴 번역 에이전트일 수 있다. 다른 예를 들어 제1 채널을 시청하고 있는 미디어 재생장치들이 외국어 자막 요청을 전송하지 않는 경우, 제1 번역 에이전트는 유휴 번역 에이전트일 수 있다.
한편 제1 번역 에이전트가 유휴 중인 경우, 제1 번역 에이전트(715)는 다른 채널의 자막 스트림에 대한 번역을 수행할 수 있다.
구체적으로 제1 번역 에이전트(715)가 유휴 중인 경우, 제1 번역 에이전트(715)는 제2 채널에서 획득한 자막 스트림을 번역하여 제2 채널-제1 언어 자막 스트림을 생성할 수 있다.
즉, 본래 제2 채널에서 획득한 자막 스트림에 대해서는, 제2 번역 에이전트(725)에서 번역을 수행한다. 다만 제1 번역 에이전트(715)가 유휴 중인 경우, 제1 번역 에이전트(715)가 제2 채널에서 획득한 자막 스트림에 대한 번역을 수행함으로써 유휴 리소스를 활용할 수 있다.
이 경우 제1 번역 에이전트(715)는 제2 채널 자막 추출 에이전트(720)로부터 제2 채널의 자막 스트림을 수신할 수 있다. 그리고 제1 번역 에이전트(715)는, 제2 채널의 자막 스트림을 제2 번역 에이전트(725)에서 요청한 제1 언어로 번역하여, 제2 채널-제1 언어 자막 스트림을 생성할 수 있다.
한편 제2 번역 에이전트(725) 내 제1 언어에 대응하는 언어 게이지(840)는 제1 번역 에이전트(715)와 공유될 수 있다.
그리고 제1 번역 에이전트(715)는 제2 번역 에이전트(725) 내 제1 언어의 언어 게이지에 저장된 세션 정보들에 해당하는 미디어 재생 장치들에, 제2 채널-제1 언어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다.
예를 들어 제2 번역 에이전트(725)의 중국어에 대응하는 언어 게이지에 제30 내지 제38 미디어 재생 장치의 세션 정보가 저장되어 있는 경우, 제1 번역 에이전트(715)는 제30 내지 제38 미디어 재생 장치들의 IP 정보들을 이용하여 제30 내지 제38 미디어 재생 장치들에 제2 채널-중국어 자막 스트림을 멀티캐스트 방식으로 송출할 수 있다.
다양한 채널에 대하여 자막 텍스트를 추출하고 번역을 진행하는 본 발명의 특성 상, 다양한 채널, 다양한 번역 언어, 많은 수의 미디어 재생 장치 들에 대한 효율적인 관리가 요구된다. 그리고 본 발명에 따르면, 채널 별 번역 에이전트, 언어 별 언어 게이지를 이용하여 다양한 언어로의 실시간 번역, 번역된 자막의 송출을 효율적으로 관리할 수 있는 장점이 있다.
또한 본 발명에 다르면 유휴 번역 에이전트의 쓰레드 자원을 효과적으로 활용함으로써, 다른 번역 에이전트의 과부하를 방지하고 한정된 자원을 균형있게 사용하도록 하는 장점이 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 제어부를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
100: 자막 서비스 제공 장치 110: 데이터베이스
120: 자막 추출 모듈 130: 자막 전송 모듈
140: 자막 번역 모듈 150: 자막 생성 모듈

Claims (10)

  1. 방송사로부터 제공되는 방송 스트림 내 자막 데이터로부터 자막 텍스트를 획득하는 자막 추출 모듈; 및
    상기 자막 텍스트를 이용하여 상기 방송 스트림에 의해 실시간 방송된 방송 컨텐츠의 자막 파일을 생성하고, 상기 방송사가 VOD 서비스 제공자에게 제공한 VOD용 방송 컨텐츠에 상기 자막 파일의 자막이 삽입되도록 상기 자막 파일을 배포하는 자막 생성 모듈;을 포함하는
    자막 서비스 제공 장치.
  2. 제 1항에 있어서,
    상기 자막 생성 모듈은,
    상기 VOD용 방송 컨텐츠를 제공 받은 상기 VOD 서비스 제공자로부터 상기 방송 컨텐츠에 대한 자막 파일 생성 요청이 수신되면, 상기 자막 텍스트를 이용하여 상기 자막 파일을 생성하는
    자막 서비스 제공 장치.
  3. 제 1항에 있어서,
    상기 자막 생성 모듈은,
    상기 VOD용 방송 컨텐츠 내 오디오로부터 오디오 텍스트를 획득하고, 상기 오디오 텍스트 내 키워드 및 상기 자막 텍스트 내 키워드를 매칭하여 상기 자막 파일의 타임 스탬프를 조절하는
    자막 서비스 제공 장치.
  4. 제 1항에 있어서,
    상기 자막 텍스트를 이용하여 생성된 한글 자막 파일을 번역하여 하나 이상의 외국어 자막 파일을 생성하는 자막 번역 모듈;을 더 포함하고,
    상기 자막 생성 모듈은, 상기 하나 이상의 외국어 자막 파일을 배포하는
    자막 서비스 제공 장치.
  5. 제 1항에 있어서,
    미디어 재생 장치로부터 실시간 외국어 자막의 요청이 수신되면, 상기 미디어 재생 장치에서 시청중인 채널의 자막 스트림을 번역하여 상기 미디어 재생 장치에 전송하는 자막 전송 모듈;을 더 포함하는
    자막 서비스 제공 장치.
  6. 제 5항에 있어서,
    상기 자막 전송 모듈은,
    복수의 채널에 각각 대응하고, 해당하는 언어를 신청한 미디어 재생 장치들의 세션 정보를 저장하는 복수의 언어 게이지를 각각 포함하는 복수의 번역 에이전트를 포함하는
    자막 서비스 제공 장치.
  7. 제 6항에 있어서,
    상기 복수의 번역 에이전트는, 제1 채널에 대응하는 제1 번역 에이전트를 포함하고,
    상기 제1 번역 에이전트는,
    상기 자막 추출 모듈이 상기 제1 채널에서 획득한 자막 스트림을 번역하여 제1 채널-제1 언어 자막 스트림 및 제1 채널-제2 언어 자막 스트림을 생성하고,
    제1 언어의 언어 게이지에 저장된 세션 정보들에 해당하는 미디어 재생 장치들에 상기 제1 채널-제1 언어 자막 스트림을 멀티캐스트 방식으로 송출하고,
    제2 언어의 언어 게이지에 저장된 세션 정보들에 해당하는 미디어 재생 장치들에 상기 제1 채널-제2 언어 자막 스트림을 멀티캐스트 방식으로 송출하는
    자막 서비스 제공 장치.
  8. 제 7항에 있어서,
    상기 복수의 번역 에이전트는, 제2 채널에 대응하는 제2 번역 에이전트를 더 포함하고,
    상기 제1 번역 에이전트는,
    상기 제1 번역 에이전트가 유휴 중인 경우, 상기 제2 채널에서 획득한 자막 스트림을 번역하여 제2 채널-제1 언어 자막 스트림을 생성하고,
    상기 제2 번역 에이전트 내 제1 언어의 언어 게이지에 저장된 세션 정보들에 해당하는 미디어 재생 장치들에 상기 제2 채널-제1 언어 자막 스트림을 멀티캐스트 방식으로 송출하는
    자막 서비스 제공 장치.
  9. 제 4항에 있어서,
    상기 자막 번역 모듈은,
    상기 한글 자막 파일 내 일부 텍스트에 대응하는 번역 텍스트를 메모리 캐싱으로부터 추출하여 상기 외국어 자막 파일을 생성하고,
    상기 번역 텍스트는,
    상기 자막 번역 모듈의 엑세스 횟수에 기초하여 갱신되는
    자막 서비스 제공 장치.
  10. 방송사로부터 제공되는 방송 스트림 내 자막 데이터로부터 자막 텍스트를 획득하는 단계;
    상기 자막 텍스트를 이용하여 상기 방송 스트림에 의해 실시간 방송된 방송 컨텐츠의 자막 파일을 생성하는 단계; 및
    상기 방송사가 VOD 서비스 제공자에게 제공한 VOD용 방송 컨텐츠에 상기 자막 파일의 자막이 삽입되도록 상기 자막 파일을 배포하는 단계;를 포함하는
    자막 서비스 제공 방법.
KR1020210101600A 2021-08-02 2021-08-02 자막 서비스 제공 장치 및 방법 KR102552533B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210101600A KR102552533B1 (ko) 2021-08-02 2021-08-02 자막 서비스 제공 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210101600A KR102552533B1 (ko) 2021-08-02 2021-08-02 자막 서비스 제공 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20230019731A true KR20230019731A (ko) 2023-02-09
KR102552533B1 KR102552533B1 (ko) 2023-07-05

Family

ID=85224576

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210101600A KR102552533B1 (ko) 2021-08-02 2021-08-02 자막 서비스 제공 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102552533B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160041433A (ko) * 2014-10-07 2016-04-18 주식회사 케이티 자막을 포함하는 재송출용 방송 데이터 생성 방법 및 서버
KR20180119101A (ko) * 2017-04-24 2018-11-01 주식회사 소리보기 방송자막 제작 시스템 및 방법
KR20210009775A (ko) * 2019-07-18 2021-01-27 북스타트 교육 주식회사 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160041433A (ko) * 2014-10-07 2016-04-18 주식회사 케이티 자막을 포함하는 재송출용 방송 데이터 생성 방법 및 서버
KR20180119101A (ko) * 2017-04-24 2018-11-01 주식회사 소리보기 방송자막 제작 시스템 및 방법
KR20210009775A (ko) * 2019-07-18 2021-01-27 북스타트 교육 주식회사 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치

Also Published As

Publication number Publication date
KR102552533B1 (ko) 2023-07-05

Similar Documents

Publication Publication Date Title
US10034028B2 (en) Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
US10567834B2 (en) Using an audio stream to identify metadata associated with a currently playing television program
KR100916717B1 (ko) 플레이 되고 있는 동영상 내용 맞춤형 광고 콘텐츠 제공방법 및 그 시스템
CN101159839B (zh) 媒体播放装置及其相关方法
CN102802044A (zh) 视频处理方法、终端及字幕服务器
KR101335595B1 (ko) 플레이 되고 있는 동영상 내용 맞춤형 광고 콘텐츠 제공시스템
US20130151251A1 (en) Automatic dialog replacement by real-time analytic processing
KR101582574B1 (ko) 실시간 번역을 통한 디지털 방송의 다국어 자막 제공 서비스 장치 및 방법
US20120323900A1 (en) Method for processing auxilary information for topic generation
WO2015019774A1 (ja) データ生成装置、データ生成方法、翻訳処理装置、プログラム、およびデータ
JP2010087658A (ja) 放送コンテンツから時事性のあるキーワードを抽出する放送受信装置及びプログラム
KR102552533B1 (ko) 자막 서비스 제공 장치 및 방법
JP7121378B2 (ja) 映像管理方法、映像管理装置、及び映像管理システム
US10796089B2 (en) Enhanced timed text in video streaming
JP2010032733A (ja) 手話映像生成システム、サーバ、端末装置、情報処理方法、及びプログラム
KR101001618B1 (ko) 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법
KR100878909B1 (ko) 대화형 디엠비 방송 제공시스템 및 이의 제공방법
KR101134267B1 (ko) 컨텐츠 변환 방법 및 시스템
US20220353584A1 (en) Optimal method to signal web-based subtitles
KR101172637B1 (ko) 컨텐츠 변환 방법 및 시스템
PIPERIDIS MULTILINGUAL CONTENT PROCESSING FOR MEDIA AND INFORMATION SERVICE

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant