KR102642029B1 - 인공지능 기반의 자막 관리 장치, 방법 및 프로그램 - Google Patents

인공지능 기반의 자막 관리 장치, 방법 및 프로그램 Download PDF

Info

Publication number
KR102642029B1
KR102642029B1 KR1020230165037A KR20230165037A KR102642029B1 KR 102642029 B1 KR102642029 B1 KR 102642029B1 KR 1020230165037 A KR1020230165037 A KR 1020230165037A KR 20230165037 A KR20230165037 A KR 20230165037A KR 102642029 B1 KR102642029 B1 KR 102642029B1
Authority
KR
South Korea
Prior art keywords
data
subtitle
caption
content
correction
Prior art date
Application number
KR1020230165037A
Other languages
English (en)
Inventor
김문주
이재석
엄세정
조성륜
Original Assignee
주식회사 인프랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인프랩 filed Critical 주식회사 인프랩
Application granted granted Critical
Publication of KR102642029B1 publication Critical patent/KR102642029B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • Quality & Reliability (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 개시에 의하면, 제1 사용자 단말로부터 영상 데이터와 음성 데이터를 포함하는 콘텐츠 데이터를 획득하고, 자막 생성 모델을 통해 상기 음성 데이터의 시간 정보를 기준으로 동기화된 제1 자막 데이터를 생성하는, 자막 생성부, 상기 제1 자막 데이터를 상기 영상 데이터의 동작 정보를 기준으로 재동기화하고, 제2 사용자 단말로 상기 콘텐츠 데이터와 상기 제1 자막 데이터를 매칭하여 제공하는, 콘텐츠 제공부 및 상기 제2 사용자 단말로부터 수정 데이터를 포함하는 자막 수정 요청을 획득하고, 상기 수정 데이터를 기반으로 상기 제1 자막 데이터를 수정하여 제2 자막 데이터를 생성하는, 자막 수정부를 포함하는, 인공지능 기반의 자막 관리 장치를 제공한다.

Description

인공지능 기반의 자막 관리 장치, 방법 및 프로그램{APPARATUS, METHOD, AND PROGRAM FOR SUBTITLE MANAGEMENT BASED ON ARTIFICIAL INTELLIGENCE}
본 개시의 실시예들은 인공지능 기반의 자막 관리 장치, 방법 및 프로그램에 관한 것으로서, 보다 상세하게는 콘텐츠 데이터에 대한 자막 데이터를 자동으로 생성하고 자막 데이터의 수정을 관리하는 장치, 방법 및 프로그램에 관한 것이다.
최근 온라인 상에서 다양한 주제의 영상 데이터를 포함하는 콘텐츠들이 사용자들에게 제공되고 있다. 영상 콘텐츠의 목적에 따라 영상 콘텐츠에 포함된 음성에 대한 자막을 함께 제공되는 경우가 증가하고 있다.
이러한 추세에 따라 자막 생성 작업을 자동화하기 위한 기술 개발이 활발하게 이루어지고 있다. 대표적으로 STT(Speech-to-Text) 기술이 있으며, 사람이 말하는 음성 데이터를 컴퓨터가 해석하여 그 내용을 문자 데이터로 전환하는 기술이다.
이와 같은 기술로 음성 데이터를 자동으로 문자 데이터로 변환하고, 영상 콘텐츠의 싱크에 맞춰서 자막 형태로 제공하는 과정에서, 자동 생성된 자막의 품질 관리 및 수정 작업의 효율성과 정확도를 향상시키기 위한 기술이 요구되고 있는 실정이다.
공개특허공보, 제10-2015-0057591호(2015.05.28.)
그러나 이러한 종래의 자막 생성 기술에는, 자동 생성된 자막에 오류가 있거나 영상 데이터와 동기화가 부적절한 경우가 빈번하게 발생하는 문제점이 존재하였다.
본 개시의 실시예들은 상기와 같은 문제점을 포함하여 여러 문제점들을 해결하기 위한 것으로서, 인공지능 기반의 자막 관리 장치, 방법 및 프로그램을 제공하고자 한다. 그러나 이러한 과제는 예시적인 것으로, 이에 의해 본 개시의 범위가 한정되는 것은 아니다.
본 개시의 일 관점에 따르면, 제1 사용자 단말로부터 영상 데이터와 음성 데이터를 포함하는 콘텐츠 데이터를 획득하고, 자막 생성 모델을 통해 상기 음성 데이터의 시간 정보를 기준으로 동기화된 제1 자막 데이터를 생성하는, 자막 생성부, 상기 제1 자막 데이터를 상기 영상 데이터의 동작 정보를 기준으로 재동기화하고, 제2 사용자 단말로 상기 콘텐츠 데이터와 상기 제1 자막 데이터를 매칭하여 제공하는, 콘텐츠 제공부 및 상기 제2 사용자 단말로부터 수정 데이터를 포함하는 자막 수정 요청을 획득하고, 상기 수정 데이터를 기반으로 상기 제1 자막 데이터를 수정하여 제2 자막 데이터를 생성하는, 자막 수정부를 포함하는, 인공지능 기반의 자막 관리 장치가 제공된다.
본 실시예에 따르면, 상기 영상 데이터는 순차적으로 연속되는 복수의 프레임을 포함하고, 상기 콘텐츠 제공부는, 상기 복수의 프레임을 상기 동작 정보에 따라 복수의 그룹으로 분류하되, 상기 복수의 프레임이 포함하는 N번째(여기서, N은 양의 정수) 프레임과 N+1번째 프레임이 서로 다른 동작 정보를 포함하는 경우, 상기 N번째 프레임과 상기 N+1번째 프레임을 서로 다른 그룹으로 분류할 수 있다.
본 실시예에 따르면, 상기 복수의 그룹은 순차적으로 연속되는 제1 그룹 및 제2 그룹을 포함하고, 상기 콘텐츠 제공부는, 상기 제1 자막 데이터에서 상기 제1 그룹에 매칭된 부분이 상기 제2 그룹의 동작 정보에 대응하는 경우, 상기 제1 그룹에 매칭된 부분의 시작 지점을 상기 제2 그룹의 최초 프레임의 시작 시점과 일치하도록 동기화할 수 있다.
본 실시예에 따르면, 상기 자막 수정부는, 상기 수정 데이터와 상기 제1 자막 데이터의 일치율 및 자막 수정 요청자 정보 중 적어도 하나를 기반으로 상기 자막 수정 요청의 적합도를 판단하고, 상기 적합도가 임계치 이상인 경우 상기 제1 자막 데이터를 수정하여 상기 제2 자막 데이터를 생성할 수 있다.
본 실시예에 따르면, 상기 콘텐츠 제공부는, 상기 자막 수정 요청을 기반으로 수정된 부분에 대하여 상기 제1 자막 데이터의 시작 지점과 상기 제2 자막 데이터의 시작 지점이 다른 경우, 상기 제2 자막 데이터의 시작 지점을 상기 제1 자막 데이터의 시작 지점과 일치하도록 동기화할 수 있다.
본 실시예에 따르면, 상기 자막 수정부는, 상기 제2 자막 데이터를 생성한 경우, 상기 수정 데이터에서 수정 키워드를 추출하고, 상기 제2 자막 데이터에서 상기 수정 키워드가 포함된 부분을 동일하게 수정하여 상기 제2 자막 데이터를 갱신할 수 있다.
본 실시예에 따르면, 상기 자막 수정부는, 상기 자막 생성부가 획득하여 자막 데이터를 생성한 다른 콘텐츠 데이터 중 상기 수정 키워드와 관련된 유사 콘텐츠 데이터를 탐색하고, 상기 유사 콘텐츠 데이터에 대하여 생성된 자막 데이터에서 상기 수정 키워드가 포함된 부분을 동일하게 수정할 수 있다.
본 실시예에 따르면, 상기 자막 수정부는 상기 수정 데이터를 상기 자막 생성부로 제공하고, 상기 자막 생성부는 상기 수정 데이터를 학습 데이터로 활용하여 상기 자막 생성 모델을 학습시키고, 상기 학습된 자막 생성 모델은 새로운 콘텐츠 데이터에 대한 자막 데이터 생성 시, 상기 수정 데이터를 반영하여 자막 데이터를 생성할 수 있다.
본 개시의 일 관점에 따르면, 제1 사용자 단말로부터 영상 데이터와 음성 데이터를 포함하는 콘텐츠 데이터를 획득하고, 자막 생성 모델을 통해 상기 음성 데이터의 시간 정보를 기준으로 동기화된 제1 자막 데이터를 생성하는 단계, 상기 제1 자막 데이터를 상기 영상 데이터의 동작 정보를 기준으로 재동기화하고, 제2 사용자 단말로 상기 콘텐츠 데이터와 상기 제1 자막 데이터를 매칭하여 제공하는 단계 및 상기 제2 사용자 단말로부터 수정 데이터를 포함하는 자막 수정 요청을 획득하고, 상기 수정 데이터를 기반으로 상기 제1 자막 데이터를 수정하여 제2 자막 데이터를 생성하는 단계를 포함하는, 인공지능 기반의 자막 관리 방법이 제공된다.
본 개시의 일 관점에 따르면, 컴퓨터와 결합되어 상기 인공지능 기반의 오픈마켓 관리 방법을 실행시키기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체가 제공된다.
전술한 것 외의 다른 측면, 특징, 이점은 이하의 발명을 실시하기 위한 구체적인 내용, 청구범위 및 도면으로부터 명확해질 것이다.
또한, 이러한 일반적이고 구체적인 측면이 시스템, 방법, 컴퓨터 프로그램, 또는 어떠한 시스템, 방법, 컴퓨터 프로그램의 조합을 사용하여 실시될 수 있다.
상기한 바와 같이 이루어진 본 개시의 예시적 실시예에 따르면, 콘텐츠 제작자의 관여없이 콘텐츠 데이터에 대한 자막 생성부터 수정 및 관리까지 효율적으로 이루어질 수 있는 인공지능 기반의 자막 관리 장치, 방법 및 프로그램을 구현할 수 있다. 물론 이러한 효과에 의해 본 개시의 범위가 한정되는 것은 아니다.
도 1은 본 개시의 예시적 실시예에 따른 콘텐츠 제공 시스템을 개략적으로 도시하는 개념도이다.
도 2는 본 개시의 예시적 실시예에 따른 콘텐츠 제공 시스템의 자막 관리 장치의 작동을 개략적으로 도시하는 개념도이다.
도 3은 본 개시의 예시적 실시예에 따른 자막 데이터 동기화 기능을 개략적으로 도시하는 예시도이다.
도 4는 본 개시의 예시적 실시예에 따른 자막 데이터 동기화 기능을 개략적으로 도시하는 예시도이다.
도 5는 본 개시의 예시적 실시예에 따른 자막 데이터 수정 기능을 개략적으로 도시하는 개념도이다.
도 6은 본 개시의 예시적 실시예에 따른 자막 데이터 수정 기능을 개략적으로 도시하는 개념도이다.
도 7은 본 개시의 예시적 실시예에 따른 자막 관리 방법을 개략적으로 도시하는 흐름도이다.
도 8 내지 도 11은 본 개시의 예시적 실시예에 따른 자막 관리 장치가 제공하는 화면을 개략적으로 도시하는 예시도이다.
본 개시는 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 개시의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.
이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다.
이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서 상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.
이하의 실시예에서, 층, 영역, 구성 요소 등의 부분이 다른 부분 위에 또는 상에 있다고 할 때, 다른 부분의 바로 위에 있는 경우뿐만 아니라, 그 중간에 다른 영역, 구성 요소 등이 개재되어 있는 경우도 포함한다.
도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 개시가 반드시 도시된 바에 한정되지 않는다.
어떤 실시예가 달리 구현 가능한 경우에 특정한 동작 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 단계가 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.
본 명세서에서 “A 및/또는 B”은 A이거나, B이거나, A와 B인 경우를 나타낸다. 그리고, “A 및 B 중 적어도 하나"는 A이거나, B이거나, A와 B인 경우를 나타낸다.
이하의 실시예에서, 층, 영역, 구성 요소 등이 연결되었다고 할 때, 층, 영역, 구성 요소들이 직접적으로 연결된 경우, 또는/및 층, 영역, 구성요소들 중간에 다른 층, 영역, 구성 요소들이 개재되어 간접적으로 연결된 경우도 포함한다. 예컨대, 본 명세서에서 층, 영역, 구성 요소 등이 전기적으로 연결되었다고 할 때, 층, 영역, 구성 요소 등이 직접 전기적으로 연결된 경우, 및/또는 그 중간에 다른 층, 영역, 구성 요소 등이 개재되어 간접적으로 전기적 연결된 경우를 나타낸다.
본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 개시는 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시의 개시가 완전하도록 하고, 본 개시가 속하는 기술 분야의 통상의 기술자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시는 청구항의 범주에 의해 정의될 뿐이다.
본 개시에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 개시에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함할 수 있다. 개시에서 사용되는 "포함할 수 있다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 개시 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함할 수 있다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 개시의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
"예시적인"이라는 단어는 본 개시에서 "예시 또는 예증으로서 사용된"의 의미로 사용된다. 본 개시에서 "예시적인"것으로 설명된 임의의 실시예는 반드시 바람직한 것으로서 해석되거나 다른 실시예들보다 이점을 갖는 것으로 해석되어서는 안된다.
본 개시의 실시예들은 기능 또는 기능을 수행하는 블록의 관점에서 설명될 수 있다. 본 개시의 '부' 또는 '모듈' 등으로 지칭될 수 있는 블록은 논리 게이트, 집적 회로, 마이크로 프로세서, 마이크로 컨트롤러, 메모리, 수동 전자 부품, 능동 전자 부품, 광학 컴포넌트, 하드와이어드 회로(hardwired circuits) 등과 같은 아날로그 또는 디지털 회로에 의해 물리적으로 구현되고, 선택적으로 펌웨어 및 소프트웨어에 의해 구동될 수 있다. 또한, 개시에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 엘리먼트를 의미하며, "부"는 어떤 역할들을 수행할 수 있다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 엘리먼트들, 객체지향 소프트웨어 엘리먼트들, 클래스 엘리먼트들 및 태스크 엘리먼트들과 같은 엘리먼트들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함할 수 있다. 엘리먼트들과 "부"들 안에서 제공되는 기능은 더 작은 수의 엘리먼트들 및 "부"들로 결합되거나 추가적인 엘리먼트들과 "부"들로 더 분리될 수 있다.
본 개시의 실시예는 적어도 하나의 하드웨어 디바이스 상에서 실행되는 적어도 하나의 소프트웨어 프로그램을 사용하여 구현될 수 있고 엘리먼트를 제어하기 위해 네트워크 관리 기능을 수행할 수 있다.
공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 할 수 있다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여 질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.
다른 정의가 없다면, 본 개시에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 개시의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 개시의 예시적 실시예에 따른 콘텐츠 제공 시스템을 개략적으로 도시하는 개념도이다.
도 1에 도시된 바와 같이, 본 개시의 예시적 실시예에 따른 콘텐츠 제공 시스템(1)은 자막 관리 장치(10), 제1 사용자 단말(20) 및 제2 사용자 단말(30)을 포함할 수 있다.
자막 관리 장치(10)는 영상 데이터 및/또는 음성 데이터를 포함하는 콘텐츠 데이터를 가공 및 제공하는 장치이다. 자막 관리 장치(10)의 형태에는 제한이 없으며 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들을 모두 포함할 수 있다. 예컨대, 본 개시에 따른 자막 관리 장치(10)는 컴퓨터, 서버 장치 및 휴대용 단말기 중 어느 하나 또는 둘 이상의 조합의 형태가 될 수 있다.
자막 관리 장치(10)는 제1 사용자 단말(20) 및/또는 제2 사용자 단말(30)과 통신하며 데이터를 송수신할 수 있다.
자막 관리 장치(10)는 제1 사용자 단말(20)로부터 콘텐츠 데이터를 획득할 수 있다. 자막 관리 장치(10)는 제1 사용자 단말(20)로부터 획득한 콘텐츠 데이터를 가공할 수 있다. 예컨대, 자막 관리 장치(10)는 제1 사용자 단말(20)로부터 획득한 콘텐츠 데이터에 대응하는 자막 데이터를 생성할 수 있다. 자막 관리 장치(10)는 제1 사용자 단말(30)로부터 획득한 콘텐츠 데이터 및 자막 관리 장치(10)가 생성한 자막 데이터를 매칭하여 제2 사용자 단말(30)로 제공할 수 있다.
여기서 콘텐츠 데이터는 영상 데이터 및 음성 데이터를 포함할 수 있다. 영상 데이터는 시각 정보를 전달하는 비디오 신호를 포함하는 데이터이다. 음성 데이터는 음성 기반의 청각 정보를 전달하는 오디오 신호를 포함하는 데이터이다. 콘텐츠 데이터는 비음성 기반의 청각 정보(예컨대, 배경음, 효과음 등)를 전달하는 오디오 신호를 포함하는 데이터를 더 포함할 수 있다.
한편, 콘텐츠 데이터의 형식은 MP4, MOV, WMV, AVI, AVCHD, FLV, F4V, SWF, MKV, WEBM, HTML5 중 어느 하나일 수 있으나 이에 제한되는 것은 아니다. 또한, 자막 데이터의 형식은 SRT, SBV, SUB, MPSUB, LRC, CAP, SMI, SAMI, RT, VTT, TTML, DFXP 중 어느 하나일 수 있으나 이에 제한되는 것은 아니다.
자막 관리 장치(10)는 생성된 자막 데이터에 대한 수정 및 관리 작업을 수행할 수 있다. 일 실시예로, 자막 관리 장치(10)는 제2 사용자 단말(30)로부터 자막 데이터에 대한 수정 요청을 획득하고, 획득한 수정 요청이 포함하는 수정 데이터를 기반으로 자막 데이터를 수정할 수 있다. 즉, 자막 관리 장치(10)는 임의로 자막 데이터를 수정하는 것뿐만 아니라, 콘텐츠 제공 시스템(1)의 사용자와의 소통을 통한 자막 수정 작업을 수행할 수 있다.
제1 사용자 단말(20)은 자막 관리 장치(10)로 콘텐츠 데이터를 제공하는 제1 사용자의 단말이다. 즉, 제1 사용자 단말(20)은 다른 사용자에게 공급하기 위한 영상을 제작하는 사용자의 단말이다.
제2 사용자 단말(30)은 자막 관리 장치(10)로부터 콘텐츠 데이터를 제공받는 제2 사용자의 단말이다. 예컨대, 제2 사용자 단말(30)은 자막 관리 장치(10)가 관리하는 콘텐츠를 시청하는 사용자의 단말일 수 있다.
제2 사용자 단말(30)은 제공받은 콘텐츠 데이터에 대한 자막 데이터의 수정 요청을 자막 관리 장치(10)로 제공할 수 있다. 자막 관리 장치(10)는 제2 사용자 단말(30)로부터 획득한 자막 수정 요청이 포함하는 수정 데이터를 기반으로 자막 데이터를 수정할 수 있다. 또한, 자막 관리 장치(10)는 제2 사용자 단말(30)로부터 획득한 자막 수정 요청의 적합도를 판단하고, 적합한 것으로 판단되는 경우에만 자막 수정 작업을 수행할 수 있다. 이에 대한 상세한 설명은 후술한다.
한편, 제1 사용자 단말(20) 및 제2 사용자 단말(30)은 무선 통신이 가능한 장치로서 그 형태에는 제한이 없다. 예컨대, 본 개시에 따른 제1 사용자 단말(20) 및 제2 사용자 단말(30)은 컴퓨터, 스마트 폰 등과 같은 휴대용 단말기일 수 있다.
도 2는 본 개시의 예시적 실시예에 따른 콘텐츠 제공 시스템의 자막 관리 장치의 작동을 개략적으로 도시하는 개념도이다.
도 2에 도시된 바와 같이, 자막 관리 장치(10)는 자막 생성부(100), 콘텐츠 제공부(200) 및 자막 수정부(300)를 포함할 수 있다.
자막 생성부(100)는 제2 사용자 단말(20)로부터 영상 데이터와 음성 데이터를 포함하는 콘텐츠 데이터를 획득하고, 획득한 콘텐츠 데이터에 대하여 자막 생성 모델을 통해 상기 음성 데이터의 시간 정보를 기준으로 동기화된 제1 자막 데이터를 자동으로 생성하는 역할을 수행한다. 이를 위해 자막 생성부(100)는 자막 생성 모델을 포함할 수 있다. 여기서 자막 생성 모델은 STT(Speech-to-Text) 모델을 포함할 수 있으며, STT API(Application Programming Interface)의 종류에는 제한이 없다.
구체적으로, 자막 생성부(100)는 제2 사용자 단말(20)로부터 획득한 콘텐츠 데이터가 포함하는 영상 데이터 및 오디오 데이터에서 오디오 데이터를 선택적으로 추출할 수 있다. 자막 생성부(100)는 추출한 오디오 데이터가 포함하는 음성 데이터 및 비음성 데이터에서 음성 데이터를 선택적으로 추출할 수 있다.
자막 생성부(100)는 추출한 음성 데이터를 문자 데이터로 변환함으로써 자막 데이터를 생성할 수 있다. 이때, 자막 생성부(100)가 생성한 자막 데이터는 음성 데이터의 시간 정보를 기준으로 동기화된 자막 데이터일 수 있다. 즉, 자막 생성부(100)는 시간의 흐름에 따른 음성 데이터를 인식하고, 음성 데이터의 오디오 신호가 발생한 시간 정보에 매칭하여 자연어 처리를 거친 문자 데이터를 생성함으로써, 음성 데이터의 시간 정보를 기준으로 동기화된 자막 데이터를 생성한다.
한편, 자막 생성부(100)는 후술하는 자막 수정부(300)의 수정 데이터를 학습 데이터로 활용하여 자막 생성 모델을 강화 학습시킬 수 있다. 즉, 자막 수정부(300)는 자막 수정 작업을 수행한 경우, 자막 생성부(100)로 수정 데이터를 제공하고, 자막 생성부(100)는 획득한 수정 데이터를 기반으로 자막 생성 모델을 학습시킨다. 수정 데이터를 학습한 자막 생성 모델을 새로운 콘텐츠 데이터에 대한 자막 데이터 생성 시, 상기 수정 데이터를 반영하여 자막 데이터를 생성할 수 있다. 이와 같이 자막 생성부(100)는 수정 데이터를 지속적으로 누적하여 학습함으로써 보다 정확한 자막 생성 작업을 수행할 수 있게 된다.
콘텐츠 제공부(200)는 제1 사용자 단말(20)로부터 획득한 콘텐츠 데이터 및 자막 생성부(100)가 상기 콘텐츠 데이터에 대하여 생성한 자막 데이터를 매칭하여 제2 사용자 단말(30)로 제공하는 역할을 수행한다.
한편, 자막 생성부(100)가 생성한 음성 데이터의 시간 정보를 기준으로 동기화된 자막 데이터는, 콘텐츠를 제공 또는 시청하는 과정에서 영상 데이터의 동작 정보(예컨대, 제공되는 화면)와 불일치하는 부분이 발생할 수 있다.
일 실시예로, 콘텐츠 데이터는 강의 콘텐츠 데이터일 수 있다. 강의 콘텐츠 데이터는 강의자료를 포함하는 영상 데이터와, 강의내용 설명을 포함하는 음성데이터를 포함할 수 있다. 이때, 강의자료를 포함하는 영상 데이터는 강의자료 관련 동작 정보(예컨대, 강의자료 중 특정한 페이지 표시, 특정한 페이지 내 삽입된 동영상을 재생, 특정한 페이지에 삽입된 특수효과 실행, 다음 페이지로 넘기기 등)를 포함할 수 있다. 또한, 강의내용 설명을 포함하는 음성 데이터는 시간 정보를 기준으로 발생한 강사의 음성 오디오 신호를 포함할 수 있다.
자막 생성부(100)는 강의내용 설명을 포함하는 음성 데이터의 시간 정보를 기준으로 동기화된 자막 데이터를 생성할 수 있다. 자막 생성부(100)가 생성한 자막 데이터는 음성 데이터의 시간 정보에 동기화되었기 때문에, 강의자료를 포함하는 영상 데이터와 강의내용 설명을 포함하는 음성데이터가 불일치하는 부분의 경우, 자막 데이터 또한 영상 데이터와 불일치하게 된다. 예컨대, 강의 콘텐츠 데이터의 강사가 강의자료 페이지를 넘기기 전에 다음 페이지에 대한 내용을 미리 설명하는 경우, 영상 데이터의 동작 정보는 현재 페이지에 대한 강의 자료이고, 음성 데이터는 다음 페이지에 대한 강의내용 설명이므로 영상 데이터와 음성 데이터가 불일치하게 된다. 마찬가지로 자막 데이터 또한 영상 데이터와 불일치하게 된다.
본 개시의 실시예에 따르면, 자막 데이터의 적어도 일부를 시간 정보가 아닌 동작 정보를 기준으로 재동기화함으로써, 자막 데이터를 콘텐츠 데이터에 보다 정확하게 매칭하여 제공할 수 있다. 이에 따라 시청자들은 영상 데이터에 해당하는 자막 데이터를 보다 정확하게 제공받게 되어 콘텐츠 데이터에 대한 이해도가 높아지는 효과가 있다.
일 실시예로, 콘텐츠 제공부(200)는 자막 생성부(100)가 콘텐츠 데이터의 음성 데이터의 시간 정보를 기준으로 동기화하여 생성한 제1 자막 데이터를, 상기 콘텐츠 데이터의 영상 데이터의 동작 정보를 기준으로 재동기화하고, 제2 사용자 단말(20)로 상기 콘텐츠 데이터와 상기 제1 자막 데이터를 매칭하여 제공할 수 있다. 이와 같은 동작 정보 기준의 재동기화에 대한 상세한 설명은 도 3 및 도 4를 참조하여 후술한다.
자막 수정부(300)는 자막 생성부(100)가 생성한 제1 자막 데이터를 수정하여 제2 자막 데이터를 생성하는 역할을 수행한다.
일 실시예로, 자막 수정부(300)는 제2 사용자 단말(30)로부터 수정 데이터를 포함하는 자막 수정 요청을 획득하고, 상기 수정 데이터를 기반으로 상기 제1 자막 데이터를 수정하여 제2 자막 데이터를 생성할 수 있다.
상기 수정 데이터는 제1 자막 데이터 중 수정 요청 부분 및 수정안을 포함할 수 있다. 자막 수정부(300)는 수정 요청 부분을 구별하기 위해 자막 데이터를 기 설정된 기준으로 분할된 코퍼스(corpus) 단위로 관리할 수 있다. 예컨대, 자막 수정부(300)는 자막 데이터를 문장 단위, 어절 단위, 단어 단위, 글자 단위, 형태소 단위, 문장 성분 단위(예컨대, 주어, 서술어, 보어, 목적어, 부사어, 관형어, 독립어) 중 적어도 하나를 기준으로 분할된 코퍼스 단위로 관리할 수 있다. 이에 따라 자막 수정 요청의 수정 데이터가 자막 데이터 중 어떠한 부분에 대한 수정 요청인지 파악하고, 해당 부분에 대해서만 수정 작업을 수행할 수 있다.
자막 수정부(300)는 자막 수정의 신뢰도를 위해 자막 수정 요청의 적합도를 판단하고, 적합한 것으로 판단된 경우에 한해서만 자막 수정 작업을 수행하고, 부적합한 것으로 판단된 경우 수정 요청 부적합 처리를 할 수 있다.
일 실시예로, 자막 수정부(300)는 상기 수정 데이터와 상기 제1 자막 데이터의 일치율 및 자막 수정 요청자 정보 중 적어도 하나를 기반으로 상기 자막 수정 요청의 적합도를 판단하고, 적합도가 임계치 이상인 경우 제1 자막 데이터를 수정하여 제2 자막 데이터를 생성할 수 있다.
자막 수정부(300)는 제1 자막 데이터 내에서 수정 데이터의 수정 요청 부분에 대응하는 코퍼스를 추출하고, 추출한 코퍼스와 수정 데이터의 수정안의 일치율을 분석할 수 있다. 이때, 자막 수정부(300)는 수정 요청 부분의 범위에 따라 코퍼스 단위의 범위를 넓게 또는 좁게 조정할 수 있다. 자막 수정부(300)는 자막 데이터에서 추출한 코퍼스 원본과 해당 코퍼스에 대한 수정안의 일치율이 높을수록 적합도를 높게 산출할 수 있다. 자막 수정부(300)는 코퍼스 원본과 해당 코퍼스에 대한 수정안의 일치율이 임계치 이상인 경우(또는 산출된 적합도가 임계치 이상인 경우)에 자막 수정 요청을 적합한 것으로 판단할 수 있다.
또한, 자막 수정부(300)는 자막 수정 요청을 제공한 자막 수정 요청자 정보를 분석할 수 있다. 자막 수정부(300)는 자막 수정 요청자의 유형(콘텐츠 공급자 또는 콘텐츠 시청자), 자막 수정 이력, 유사 콘텐츠 시청 이력 또는 공급 이력) 등을 기반으로 자막 수정 요청자 정보를 분석하여 자막 수정 요청의 적합도를 판단할 수 있다. 예컨대, 자막 수정부(300)는 자막 수정 요청자의 유형이 콘텐츠 공급자인 경우 콘텐츠 시청자인 경우보다 적합도를 높게 산출하고, 자막 수정 이력, 유사 콘텐츠 시청 이력 또는 공급 이력이 많을수록 적합도를 높게 산출할 수 있다. 자막 수정부(300)는 자막 수정 요청자 정보를 분석하여 산출한 적합도가 임계치 이상인 경우 제1 자막 데이터를 수정하여 제2 자막 데이터를 생성할 수 있다.
한편, 자막 수정부(300)는 상기 수정 데이터와 상기 제1 자막 데이터의 일치율 및 자막 수정 요청자 정보를 전부 활용하여 수정 요청의 적합도를 산출하는 것도 가능하다. 자막 수정부(300)는 상기 수정 데이터와 상기 제1 자막 데이터의 일치율 및 자막 수정 요청자 정보의 가중치를 상이하게 설정할 수 있다.
구체적인 예로, 자막 수정부(300)는 자막 수정 요청의 주체보다 자막 수정 요청의 내용에 더 높은 가중치를 부여할 수 있다. 즉, 자막 수정부(300)는 상기 수정 데이터와 상기 제1 자막 데이터의 일치율에 대한 가중치를 자막 수정 요청자 정보 분석에 대한 가중치보다 높게 설정할 수 있다.
구체적인 다른 예로, 구체적인 예로, 자막 수정부(300)는 자막 수정 요청의 주체보다 자막 수정 요청의 내용에 더 낮은 가중치를 부여할 수 있다. 즉, 자막 수정부(300)는 상기 수정 데이터와 상기 제1 자막 데이터의 일치율에 대한 가중치를 자막 수정 요청자 정보 분석에 대한 가중치보다 낮게 설정할 수 있다.
일 실시예로, 자막 수정부(300)는 자막 수정 요청을 기반으로 자막 수정 작업이 수행된 경우, 상기 자막 수정 요청을 제공한 자막 수정 요청자에게 보상을 제공할 수 있다.
도 3은 본 개시의 예시적 실시예에 따른 자막 데이터 동기화 기능을 개략적으로 도시하는 예시도이다.
도 3에 도시된 바와 같이, 제2 사용자 단말(30, 도 2 참조)로 제공되는 콘텐츠는 영상 데이터(11), 음성 데이터(12) 및 자막 데이터(13)를 포함할 수 있다.
영상 데이터(11)는 순차적으로 연속되는 복수의 프레임을 포함할 수 있다. 여기서 복수의 프레임은 프레임 비율(Frame rate)에 따라 단위시간당 프레임 개수가 달라질 수 있다. 예컨대, 프레임 비율은 24fps, 30fps, 60fps 등일 수 있으나 이에 제한되는 것은 아니다.
콘텐츠 제공부(300, 도 2 참조)는 영상 데이터(11)가 포함하는 복수의 프레임을 동작 정보에 따라 복수의 그룹으로 분류할 수 있다. 콘텐츠 제공부(200)는 복수의 프레임 각각이 포함하는 동작 정보를 분석하고, 동작 정보가 동일한 프레임끼리 동일한 그룹으로 분류하고, 동작 정보가 서로 다른 프레임은 서로 다른 그룹으로 분류할 수 있다.
일 실시예로, 콘텐츠 제공부(200)는 영상 데이터(11)가 포함하는 복수의 프레임이 포함하는 N번째(여기서, N은 양의 정수) 프레임과 N+1번째 프레임이 서로 다른 동작 정보를 포함하는 경우, 상기 N번째 프레임과 상기 N+1번째 프레임을 서로 다른 그룹으로 분류할 수 있다.
마찬가지로 콘텐츠 제공부(200)는 영상 데이터(11)가 포함하는 복수의 프레임이 포함하는 N번째(여기서, N은 양의 정수) 프레임과 N+1번째 프레임이 동일한 동작 정보를 포함하는 경우, 상기 N번째 프레임과 상기 N+1번째 프레임을 동일한 그룹으로 분류할 수 있다.
도 3에 도시된 바와 같이, 콘텐츠 제공부(200)가 분류한 복수의 그룹은 순차적으로 연속되는 제1 그룹(11a) 및 제2 그룹(11b)을 포함할 수 있다. 즉, 제1 그룹(11a)에 포함된 프레임들은 서로 동일한 동작 정보를 포함하는 프레임들이고, 제2 그룹(11b)에 포함된 프레임들은 서로 동일한 동작 정보를 포함하되, 제1 그룹(11a)에 포함된 프레임들과는 다른 동작 정보를 포함하는 프레임들이다.
콘텐츠 제공부(200)는 영상 데이터(11)의 1번째 프레임과 2번째 프레임의 동작 정보 비교부터, 마지막 프레임과 마지막 프레임의 직전 프레임의 동작 정보 비교까지 순차적으로 수행할 수 있다. 콘텐츠 제공부(200)는 상기와 같은 연속하는 두 프레임의 동작 정보 비교를 순차적으로 수행하며, 동작 정보가 서로 다른 N번째 프레임과 상기 N+1번째 프레임이 발견되는 경우 그룹을 분류할 수 있다. 이 경우, 1번째 프레임부터 N번째 프레임까지를 제1 그룹(11a)으로 분류하고, N+1번째 프레임부터는 제2 그룹(11b)으로 분류할 수 있다. 마찬가지로 동작 정보가 서로 다른 M번째(여기서, M은 N+1보다 큰 양의 정수) 프레임과 M+1번째 프레임이 발견되는 경우, N+1번째 프레임부터 M번째 프레임까지를 제2 그룹(11b)으로 분류하고, M+1번째 프레임부터는 제3 그룹으로 분류할 수 있다.
한편, 일 실시예로, 콘텐츠 제공부(200)는 프레임 간의 동작 정보의 동일 여부를 콘텐츠에 부여된 코드, 카테고리, 주제, 콘텐츠 소개글 내용, 공급자 정보, 시청자 정보, 영상 진행률, 시각 정보(예컨대, 강의자료 이미지 및 문자) 분석 내용, 자막 데이터 내용 중 적어도 하나를 기반으로 판단할 수 있다.
제1 자막 데이터(13)는 음성 데이터(12)의 시간 정보를 기준으로 동기화된 제1 자막 데이터(13a) 및 영상 데이터(11)의 동작 정보를 기준으로 동기화된 제1 자막 데이터(13b)를 포함할 수 있다. 콘텐츠 제공부(200)는 음성 데이터(12)의 시간 정보를 기준으로 동기화된 제1 자막 데이터(13a)를 영상 데이터(11)의 동작 정보를 기준으로 재동기화할 수 있다.
일 실시예로, 콘텐츠 제공부(200)는 음성 데이터(12)의 시간 정보를 기준으로 동기화된 제1 자막 데이터(13a)에서 영상 데이터(11)의 제1 그룹(11a)에 매칭된 부분이 영상 데이터(11)의 제2 그룹(11b)의 동작 정보에 대응하는 경우, 제1 그룹(11a)에 매칭된 부분의 시작 지점(t1)을 제2 그룹(11b)의 최초 프레임의 시작 지점(t2)과 일치하도록 동기화할 수 있다.
예컨대, 도 3을 참조하면, 제1 자막 데이터(13)의 "CCCCCCCCCCC"부분은 제1 그룹(11a)에 매칭되었으나, "CCCCCCCCCCC"부분이 제2 그룹(11b)의 동작 정보에 대응하기에 "CCCCCCCCCCC"부분의 시작 지점을 제2 그룹(11b)의 최초 프레임의 시작 지점(t2)과 일치하도록 동기화한 것을 확인할 수 있다.
도 4는 본 개시의 예시적 실시예에 따른 자막 데이터 동기화 기능을 개략적으로 도시하는 예시도이다.
도 4에 도시된 바와 같이, 자막 수정부(300, 도 2 참조)는 자막 생성부(100, 도 2 참조)가 생성한 제1 자막 데이터(13)를 수정하여 제2 자막 데이터(14)를 생성할 수 있다.
제2 자막 데이터(14)는 자막 수정에 따른 동기화 이전의 제2 자막 데이터(14a) 및 자막 수정에 따른 동기화 이후의 제2 자막 데이터(14b)를 포함할 수 있다.
일 실시예로, 콘텐츠 제공부(200, 도 2 참조)는 자막 수정 요청을 기반으로 수정된 부분에 대하여 제1 자막 데이터(13)의 시작 지점(t3)과 제2 자막 데이터(14)의 시작 지점(t4)이 다른 경우, 제2 자막 데이터(14)의 시작 지점(t4)을 제1 자막 데이터의 시작 지점(t3)과 일치하도록 동기화할 수 있다. 즉, 콘텐츠 제공부(200)는 자막 수정에 따른 동기화 이전의 제2 자막 데이터(14a)에서 자막 수정 작업을 통해 수정된 부분의 시작 지점(t4)을, 해당 부분의 수정 전인 제1 자막 데이터(13)의 시작 지점(t3)으로 동기화하여, 자막 수정에 따른 동기화 이후의 제2 자막 데이터(14b)를 생성할 수 있다.
예컨대, 도 4를 참조하면, 제1 자막 데이터(13)의 "CCCCCCCCCCCCCCC"부분이 "XXXXXX"로 수정됨에 따라 시작 지점이 달라졌고, "XXXXXX"부분의 시작 지점을 기존의 제1 자막 데이터(13)의 "CCCCCCCCCCCCCCC"부분의 시작 지점(t3)과 일치하도록 동기화한 것을 확인할 수 있다.
도 5는 본 개시의 예시적 실시예에 따른 자막 데이터 수정 기능을 개략적으로 도시하는 개념도이다.
도 5에 도시된 바와 같이, 자막 수정부(300, 도 2 참조)는 제1 자막 데이터(13)의 적어도 일부를 수정하여 제2 자막 데이터(14)를 생성할 수 있다. 자막 수정부(300)는 수정 데이터를 기반으로 추가적인 자막 수정 작업을 수행하여 제2 자막 데이터(14)를 갱신할 수 있다. 이에 따라 제2 자막 데이터(14)는 갱신 전 제2 자막 데이터(14a) 및 갱신 후 제2 자막 데이터(14c)를 포함할 수 있다.
일 실시예로, 자막 수정부(300)는 제2 자막 데이터(14)를 생성한 경우, 수정 데이터에서 수정 키워드를 추출하고, 제2 자막 데이터(14)에서 상기 수정 키워드가 포함된 부분을 동일하게 수정하여 제2 자막 데이터(14)를 갱신할 수 있다. 즉, 자막 수정부(300)는 제1 자막 데이터(13)를 수정한 내용의 핵심이 되는 수정 키워드를 추출하고, 갱신 전 제2 자막 데이터(14a)에서 상기 추출된 수정 키워드가 포함된 부분을 추가적으로 탐색하여 동일한 수정 작업을 수행함으로써 갱신 후 제2 자막 데이터(14c)를 생성할 수 있다.
예컨대, 도 5를 참조하면, 제1 자막 데이터(13)는 "BBB" 부분이 전단과 후단 총 두 군데 포함하고 있다. 제2 사용자 단말(30, 도 2 참조)로부터 제1 자막 데이터(13)의 전단의 "BBB"부분을 "XXX"로 자막 수정 요청을 획득할 수 있다. 이에 따라 자막 수정부(300)는 전단의 "BBB"부분을 "XXX"로 수정하여 갱신 전 제2 자막 데이터(14a)를 생성할 수 있다. 이어서 자막 수정부(300)는 "BBB"를 본 자막 수정 작업의 수정 키워드로 설정하고, 갱신 전 제2 자막 데이터(14a)에서 "BBB"가 포함된 부분을 추가적으로 탐색하여 후단의 "BBB" 부분을 추출할 수 있다. 자막 수정부(300)는 추출된 후단의 "BBB"부분을 전단의 "BBB"부분과 동일하게 "XXX"로 수정하여 갱신 후 제2 자막 데이터(14c)를 생성할 수 있다.
이와 같은 추가 자막 수정 작업을 통해 자막 수정 요청자가 제공한 수정 작업을 자막 데이터 전반에 대하여 수행하게 되어 보다 효율적인 자막 수정이 가능해지며 전체적인 자막 품질이 향상되는 효과가 있다.
한편, 자막 수정부(300)는 상술한 추가적인 자막 수정 작업이 수행된 경우, 추가적인 자막 수정 작업이 수행된 부분의 개수에 비례하여 자막 수정 요청자에 대한 보상을 증가시킬 수 있다.
도 6은 본 개시의 예시적 실시예에 따른 자막 데이터 수정 기능을 개략적으로 도시하는 개념도이다.
도 6에 도시된 바와 같이, 콘텐츠 제공 시스템(1, 도 2 참조)은 제1 사용자 단말(20, 도 2 참조)로부터 복수의 콘텐츠 데이터를 획득하고, 제2 사용자 단말(30, 도 2 참조)로 복수의 콘텐츠를 제공할 수 있다.
자막 수정부(300, 도 2 참조)는 어느 하나의 콘텐츠 데이터에 대하여 수행한 자막 수정 작업의 수정 데이터를 기반으로 유사한 자막 오류가 존재할 가능성이 높은 다른 콘텐츠 데이터에 대하여 추가적인 자막 수정 작업을 수행할 수 있다.
일 실시예로, 자막 수정부(300)는 어느 하나의 콘텐츠 데이터에 대하여 자막 수정 작업을 수행하고, 상기 자막 수정 작업의 수정 데이터로부터 수정 키워드를 추출할 수 있다. 자막 수정부(300)는 자막 생성부(100, 도 2 참조)가 획득하여 자막 데이터를 생성한 다른 콘텐츠 데이터 중 상기 수정 키워드와 관련된 유사 콘텐츠 데이터를 탐색하고, 상기 유사 콘텐츠 데이터에 대하여 생성된 자막 데이터에서 상기 수정 키워드가 포함된 부분을 동일하게 수정할 수 있다.
예컨대, 도 6을 참조하면, 자막 수정부(300)는 수정 키워드와 관련도가 높은 다른 콘텐츠 데이터를 하나 이상 탐색할 수 있다. 자막 수정부(300)는 탐색된 하나 이상의 콘텐츠 데이터에 대하여 생성된 자막 데이터를 분석하여 상기 수정 키워드와 관련된 자막 오류가 존재하는지 여부를 판단할 수 있다. 자막 수정부(300)는 상기 수정 키워드와 관련된 자막 오류가 발견되는 경우, 수정 데이터를 기반으로 동일한 자막 수정 작업을 수행할 수 있다.
이와 같은 연쇄적인 추가 자막 수정 작업을 통해 콘텐츠 제공 시스템(1)에 등록된 복수의 콘텐츠 데이터에 대한 자막 품질을 전반적으로 향상시킬 수 있는 효과가 있다.
한편, 자막 수정부(300)는 추가적인 자막 수정 작업이 수행된 경우, 추가적인 자막 수정 작업 횟수에 비례하여 자막 수정 요청자에 대한 보상을 증가시킬 수 있다.
도 7은 본 개시의 예시적 실시예에 따른 자막 관리 방법을 개략적으로 도시하는 흐름도이다.
도 7에 도시된 바와 같이, 본 개시의 예시적 실시예에 따른 자막 관리 방법은 콘텐츠 데이터를 획득하는 단계(S100), 제1 자막 데이터를 생성하는 단계(S200), 제1 자막 데이터를 재동기화하는 단계(S300), 콘텐츠 데이터 및 제1 자막 데이터를 제공하는 단계(S400), 자막 수정 요청을 획득하는 단계(S500), 수정 요청의 적합성을 판단하는 단계(S600), 수정 요청을 부적합 처리하는 단계(S710), 제2 자막 데이터를 생성하는 단계(S720), 추가 수정 작업을 수행하는 단계(S800) 및 수정 데이터를 학습하는 단계(S900)를 포함할 수 있다.
이하, 도면 상 동일한 도면부호는 동일한 구성 요소를 나타내는 바 전술한 내용과 중복되는 내용에 대한 설명은 생략한다.
방법은 콘텐츠 데이터를 획득하는 단계(S100)는 자막 생성부(100, 도 2 참조)가 제1 사용자 단말(20, 도 2 참조)로부터 영상 데이터와 음성 데이터를 포함하는 콘텐츠 데이터를 획득하는 단계이다.
제1 자막 데이터를 생성하는 단계(S200)는 자막 생성부(100)가 자막 생성 모델을 통해 상기 음성 데이터의 시간 정보를 기준으로 동기화된 제1 자막 데이터를 생성하는 단계이다.
제1 자막 데이터를 재동기화하는 단계(S300)는 콘텐츠 제공부(200, 도 2 참조)가 상기 제1 자막 데이터를 상기 영상 데이터의 동작 정보를 기준으로 재동기화하는 단계이다.
콘텐츠 데이터 및 제1 자막 데이터를 제공하는 단계(S400)는 콘텐츠 제공부(200)가 제2 사용자 단말(30, 도 2 참조)로 상기 콘텐츠 데이터와 상기 제1 자막 데이터를 매칭하여 제공하는 단계이다.
자막 수정 요청을 획득하는 단계(S500)는 자막 수정부(300, 도 2 참조)가 제2 사용자 단말(30)로부터 수정 데이터를 포함하는 자막 수정 요청을 획득하는 단계이다.
수정 요청의 적합성을 판단하는 단계(S600)는 자막 수정부(300)가 상기 수정 데이터와 상기 제1 자막 데이터의 일치율 및 자막 수정 요청자 정보 중 적어도 하나를 기반으로 상기 자막 수정 요청의 적합도를 판단하는 단계이다.
수정 요청을 부적합 처리하는 단계(S710)는 자막 수정부(300)가 상기 자막 수정 요청이 부적합한 것으로 판단된 경우(자막 수정 요청의 적합도가 임계치 미만인 경우), 상기 자막 수정 요청을 부적합 처리하는 단계이다.
제2 자막 데이터를 생성하는 단계(S720)는 자막 수정부(300)가 상기 자막 수정 요청이 적합한 것으로 판단된 경우(자막 수정 요청의 적합도가 임계치 이상인 경우), 상기 수정 데이터를 기반으로 상기 제1 자막 데이터를 수정하여 제2 자막 데이터를 생성하는 단계이다.
추가 수정 작업을 수행하는 단계(S800)는 자막 수정부(300)가 수정 데이터를 기반으로 추가적인 자막 수정 작업을 수행하는 단계이다.
일 실시예로, 추가 수정 작업을 수행하는 단계(S800)는 자막 수정부(300)가 수정 데이터를 기반으로 추가적인 자막 수정 작업을 수행하여 제2 자막 데이터(14)를 갱신하는 단계를 포함할 수 있다.
구체적으로, 추가 수정 작업을 수행하는 단계(S800)는 자막 수정부(300)가 제2 자막 데이터(14)를 생성한 경우, 수정 데이터에서 수정 키워드를 추출하고, 제2 자막 데이터(14)에서 상기 수정 키워드가 포함된 부분을 동일하게 수정하여 제2 자막 데이터(14)를 갱신하는 단계를 포함할 수 있다.
일 실시예로, 추가 수정 작업을 수행하는 단계(S800)는 자막 수정부(300)가 어느 하나의 콘텐츠 데이터에 대하여 수행한 자막 수정 작업의 수정 데이터를 기반으로 유사한 자막 오류가 존재할 가능성이 높은 다른 콘텐츠 데이터에 대하여 추가적인 자막 수정 작업을 수행하는 단계를 포함할 수 있다.
구체적으로, 추가 수정 작업을 수행하는 단계(S800)는 자막 수정부(300)가 어느 하나의 콘텐츠 데이터에 대하여 자막 수정 작업을 수행하고, 상기 자막 수정 작업의 수정 데이터로부터 수정 키워드를 추출하고, 자막 생성부(100)가 획득하여 자막 데이터를 생성한 다른 콘텐츠 데이터 중 상기 수정 키워드와 관련된 유사 콘텐츠 데이터를 탐색하고, 상기 유사 콘텐츠 데이터에 대하여 생성된 자막 데이터에서 상기 수정 키워드가 포함된 부분을 동일하게 수정하는 단계를 포함할 수 있다.
수정 데이터를 학습하는 단계(S900)는 자막 수정부(300)가 상기 수정 데이터를 상기 자막 생성부(100)로 제공하고, 자막 생성부(100)는 상기 수정 데이터를 학습 데이터로 활용하여 상기 자막 생성 모델을 학습하는 단계이다. 수정 데이터를 학습한 자막 생성 모델을 새로운 콘텐츠 데이터에 대한 자막 데이터 생성 시, 상기 수정 데이터를 반영하여 자막 데이터를 생성할 수 있다.
도 8 내지 도 11은 본 개시의 예시적 실시예에 따른 자막 관리 장치가 제공하는 화면을 개략적으로 도시하는 예시도이다.
도 8 내지 도 10에 도시된 바와 같이, 본 개시의 예시적 실시예에 따른 자막 관리 장치(10, 도 2 참조)는 콘텐츠를 제공하는 화면에 자막 기능 활성화 버튼, 스크립트 활성화 버튼 및 자막(또는 스크립트) 수정 요청 버튼 중 적어도 하나를 포함할 수 있다.
자막 기능 활성화 버튼은 제공되는 콘텐츠가 포함하는 영상 데이터에 대응하는 자막 데이터의 표시 여부를 설정할 수 있다. 예컨대, 자막 관리 장치(10)는 자막 기능 활성화 버튼 클릭 시 자막 끄기/켜기 또는 자막의 표시 위치를 설정할 수 있는 메뉴를 제공할 수 있다. 이러한 자막 기능 활성화 버튼은 화면의 우측 하단에 표시될 수 있으나 이에 제한되는 것은 아니고 콘텐츠 제공 화면 상 임의의 위치에 배치될 수 있다.
일 실시예로, 자막 관리 장치(10)는 자막 데이터를 영상 데이터의 적어도 일부와 오버랩(overlap)하여 제공할 수 있다. 다른 실시예로, 자막 관리 장치(10)는 자막 데이터가 영상 데이터와 오버랩되지 않도록 영상 데이터의 일측(예컨대, 영상 데이터의 하측, 상측, 좌측, 우측 등)에 배치할 수 있다. 이와 같은 자막 데이터 표시 위치는 자막 기능 활성화 버튼을 통해 제어할 수 있다.
스크립트 활성화 버튼은 제공되는 콘텐츠가 포함하는 영상 데이터에 대응하는 스크립트 데이터의 표시 여부를 설정할 수 있다. 여기서 스크립트 데이터는 영상 데이터의 재생 시간의 흐름에 따라 제공되는 자막 데이터 전체를 포함하는 데이터이다. 도 11을 참조하면, 스크립트 데이터는 자막 데이터를 기 설정된 기준으로 분류하고, 각각의 분류된 자막 데이터에 대하여 음성 데이터의 시간 정보를 매칭하여 표시할 수 있다. 또한, 스크립트 데이터 상에서 자막 데이터는 시간 정보에 따라 순차적으로 표시될 수 있다. 일 실시예로, 스크립트 데이터가 포함하는 자막 데이터의 일부를 선택하면 해당 자막 데이터에 매칭된 시간 정보에 대응하는 영상 데이터를 표시할 수 있다. 이를 통해 콘텐츠 시청자는 특정한 자막 데이터에 대응하는 영상 데이터를 편리하게 검색할 수 있다.
일 실시예로, 콘텐츠를 시청하는 사용자는 스크립트 데이터를 활성화시키고, 스크립트 데이터가 포함하는 자막 데이터의 적어도 일부에 대한 수정 요청을 즉각적으로 수행할 수 있다. 예컨대, 도 11에 도시된 바와 같이, 콘텐츠 시청자는 자막 스크립트 데이터에 포함된 자막 데이터의 적어도 일부를 선택하고, 선택한 자막 데이터에 대한 수정안을 입력할 수 있다. 자막 수정부(300, 도 2 참조)는 사용자가 입력한 수정 데이터를 획득하여 전술한 자막 수정 요청의 적합도를 판단하고, 자막 수정 작업을 수행할 수 있다.
자막 관리 장치(10)는 스크립트 활성화 버튼 클릭 시 스크립트 끄기/켜기 또는 스크립트의 표시 위치를 설정할 수 있는 메뉴를 제공할 수 있다. 이러한 스크립트 기능 활성화 버튼은 화면의 우측에 표시될 수 있으나 이에 제한되는 것은 아니고 콘텐츠 제공 화면 상 임의의 위치에 배치될 수 있다.
본 개시는 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 개시의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
1: 콘텐츠 제공 시스템
10: 자막 관리 장치
11: 영상 데이터
12: 음성 데이터
13: 제1 자막 데이터
14: 제2 자막 데이터
20: 제1 사용자 단말
30: 제2 사용자 단말
100: 자막 생성부
200: 콘텐츠 제공부
300: 자막 수정부

Claims (10)

  1. 제1 사용자 단말로부터 영상 데이터와 음성 데이터를 포함하는 콘텐츠 데이터를 획득하고, 자막 생성 모델을 통해 상기 음성 데이터의 시간 정보를 기준으로 동기화된 제1 자막 데이터를 생성하는, 자막 생성부;
    상기 제1 자막 데이터를 상기 영상 데이터의 동작 정보를 기준으로 재동기화하고, 제2 사용자 단말로 상기 콘텐츠 데이터와 상기 제1 자막 데이터를 매칭하여 제공하는, 콘텐츠 제공부; 및
    상기 제2 사용자 단말로부터 수정 데이터를 포함하는 자막 수정 요청을 획득하고, 상기 수정 데이터를 기반으로 상기 제1 자막 데이터를 수정하여 제2 자막 데이터를 생성하는, 자막 수정부를 포함하고,
    상기 영상 데이터는 순차적으로 연속되는 복수의 프레임을 포함하고,
    상기 콘텐츠 제공부는,
    상기 복수의 프레임을 상기 동작 정보에 따라 복수의 그룹으로 분류하되,
    상기 복수의 프레임이 포함하는 N번째(여기서, N은 양의 정수) 프레임과 N+1번째 프레임이 서로 다른 동작 정보를 포함하는 경우, 상기 N번째 프레임과 상기 N+1번째 프레임을 서로 다른 그룹으로 분류하고,
    상기 자막 수정부는,
    상기 수정 데이터와 상기 제1 자막 데이터의 일치율 및 자막 수정 요청자 정보 중 적어도 하나를 기반으로 상기 자막 수정 요청의 적합도를 판단하고, 상기 적합도가 임계치 이상인 경우 상기 제1 자막 데이터를 수정하여 상기 제2 자막 데이터를 생성하는, 인공지능 기반의 자막 관리 장치.
  2. 삭제
  3. 제1 항에 있어서,
    상기 복수의 그룹은 순차적으로 연속되는 제1 그룹 및 제2 그룹을 포함하고,
    상기 콘텐츠 제공부는,
    상기 제1 자막 데이터에서 상기 제1 그룹에 매칭된 부분이 상기 제2 그룹의 동작 정보에 대응하는 경우, 상기 제1 그룹에 매칭된 부분의 시작 지점을 상기 제2 그룹의 최초 프레임의 시작 시점과 일치하도록 동기화하는, 인공지능 기반의 자막 관리 장치.
  4. 삭제
  5. 제1 항에 있어서,
    상기 콘텐츠 제공부는,
    상기 자막 수정 요청을 기반으로 수정된 부분에 대하여 상기 제1 자막 데이터의 시작 지점과 상기 제2 자막 데이터의 시작 지점이 다른 경우, 상기 제2 자막 데이터의 시작 지점을 상기 제1 자막 데이터의 시작 지점과 일치하도록 동기화하는, 인공지능 기반의 자막 관리 장치.
  6. 제5 항에 있어서,
    상기 자막 수정부는,
    상기 제2 자막 데이터를 생성한 경우, 상기 수정 데이터에서 수정 키워드를 추출하고, 상기 제2 자막 데이터에서 상기 수정 키워드가 포함된 부분을 동일하게 수정하여 상기 제2 자막 데이터를 갱신하는, 인공지능 기반의 자막 관리 장치.
  7. 제6 항에 있어서,
    상기 자막 수정부는,
    상기 자막 생성부가 획득하여 자막 데이터를 생성한 다른 콘텐츠 데이터 중 상기 수정 키워드와 관련된 유사 콘텐츠 데이터를 탐색하고, 상기 유사 콘텐츠 데이터에 대하여 생성된 자막 데이터에서 상기 수정 키워드가 포함된 부분을 동일하게 수정하는, 인공지능 기반의 자막 관리 장치.
  8. 제7 항에 있어서,
    상기 자막 수정부는 상기 수정 데이터를 상기 자막 생성부로 제공하고,
    상기 자막 생성부는 상기 수정 데이터를 학습 데이터로 활용하여 상기 자막 생성 모델을 학습시키고,
    상기 학습된 자막 생성 모델은 새로운 콘텐츠 데이터에 대한 자막 데이터 생성 시, 상기 수정 데이터를 반영하여 자막 데이터를 생성하는, 인공지능 기반의 자막 관리 장치.
  9. 컴퓨터에 의해 수행되는,
    자막 생성부가 제1 사용자 단말로부터 영상 데이터와 음성 데이터를 포함하는 콘텐츠 데이터를 획득하고, 자막 생성 모델을 통해 상기 음성 데이터의 시간 정보를 기준으로 동기화된 제1 자막 데이터를 생성하는 단계;
    콘텐츠 제공부가 상기 제1 자막 데이터를 상기 영상 데이터의 동작 정보를 기준으로 재동기화하고, 제2 사용자 단말로 상기 콘텐츠 데이터와 상기 제1 자막 데이터를 매칭하여 제공하는 단계; 및
    자막 수정부가 상기 제2 사용자 단말로부터 수정 데이터를 포함하는 자막 수정 요청을 획득하고, 상기 수정 데이터를 기반으로 상기 제1 자막 데이터를 수정하여 제2 자막 데이터를 생성하는 단계를 포함하고,
    상기 영상 데이터는 순차적으로 연속되는 복수의 프레임을 포함하고,
    상기 콘텐츠 제공부는,
    상기 복수의 프레임을 상기 동작 정보에 따라 복수의 그룹으로 분류하되,
    상기 복수의 프레임이 포함하는 N번째(여기서, N은 양의 정수) 프레임과 N+1번째 프레임이 서로 다른 동작 정보를 포함하는 경우, 상기 N번째 프레임과 상기 N+1번째 프레임을 서로 다른 그룹으로 분류하고,
    상기 자막 수정부는,
    상기 수정 데이터와 상기 제1 자막 데이터의 일치율 및 자막 수정 요청자 정보 중 적어도 하나를 기반으로 상기 자막 수정 요청의 적합도를 판단하고, 상기 적합도가 임계치 이상인 경우 상기 제1 자막 데이터를 수정하여 상기 제2 자막 데이터를 생성하는, 인공지능 기반의 자막 관리 방법.
  10. 컴퓨터와 결합되어, 제9 항의 방법을 실행시키기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체.
KR1020230165037A 2023-09-11 2023-11-24 인공지능 기반의 자막 관리 장치, 방법 및 프로그램 KR102642029B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20230120389 2023-09-11
KR1020230120389 2023-09-11

Publications (1)

Publication Number Publication Date
KR102642029B1 true KR102642029B1 (ko) 2024-02-28

Family

ID=90124943

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020230165037A KR102642029B1 (ko) 2023-09-11 2023-11-24 인공지능 기반의 자막 관리 장치, 방법 및 프로그램
KR1020230165027A KR102651143B1 (ko) 2023-09-11 2023-11-24 인공지능 기반 멘토링 서비스 제공 시스템 및 그 제공 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020230165027A KR102651143B1 (ko) 2023-09-11 2023-11-24 인공지능 기반 멘토링 서비스 제공 시스템 및 그 제공 방법

Country Status (1)

Country Link
KR (2) KR102642029B1 (ko)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007256714A (ja) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> 字幕修正装置
KR20150057591A (ko) 2013-11-20 2015-05-28 주식회사 디오텍 동영상파일에 대한 자막데이터 생성방법 및 장치
KR102135643B1 (ko) * 2019-09-04 2020-07-20 (주) 소프트기획 음성인식 엔진을 이용한 실시간 지능형 자막화 서비스 제공 시스템
KR102351408B1 (ko) * 2021-03-26 2022-01-14 이광선 동영상 번역자막제공 서비스 방법
KR20230065780A (ko) * 2021-11-05 2023-05-12 주식회사 팀아이브 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법, 장치 및 컴퓨터프로그램
KR20230076509A (ko) * 2021-11-24 2023-05-31 이광선 동영상 자막제공 서비스 방법
KR20230077821A (ko) * 2021-11-25 2023-06-02 동서대학교 산학협력단 인공지능 기술기반 스트리밍 영상 검색 시스템 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100107179A (ko) 2009-03-25 2010-10-05 유비벨록스(주) 멘토링 서비스를 제공하는 방법 및 멘트링 서버
KR101868595B1 (ko) * 2017-08-09 2018-06-18 (주)제이앤디힐링뮤직 앱을 이용한 심리 치유 시스템 및 방법
KR20200011525A (ko) * 2020-01-22 2020-02-03 여의(주) 멘토링 매칭 및 관리 시스템
KR102393500B1 (ko) * 2020-04-22 2022-05-02 주식회사 엘지유플러스 로그인 시스템 및 인증 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007256714A (ja) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> 字幕修正装置
KR20150057591A (ko) 2013-11-20 2015-05-28 주식회사 디오텍 동영상파일에 대한 자막데이터 생성방법 및 장치
KR102135643B1 (ko) * 2019-09-04 2020-07-20 (주) 소프트기획 음성인식 엔진을 이용한 실시간 지능형 자막화 서비스 제공 시스템
KR102351408B1 (ko) * 2021-03-26 2022-01-14 이광선 동영상 번역자막제공 서비스 방법
KR20230065780A (ko) * 2021-11-05 2023-05-12 주식회사 팀아이브 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법, 장치 및 컴퓨터프로그램
KR20230076509A (ko) * 2021-11-24 2023-05-31 이광선 동영상 자막제공 서비스 방법
KR20230077821A (ko) * 2021-11-25 2023-06-02 동서대학교 산학협력단 인공지능 기술기반 스트리밍 영상 검색 시스템 및 방법

Also Published As

Publication number Publication date
KR102651143B1 (ko) 2024-03-25

Similar Documents

Publication Publication Date Title
JP6150405B2 (ja) メディアにキャプションを付けるシステム及び方法
US11301644B2 (en) Generating and editing media
KR102299379B1 (ko) 이벤트의 사용자 경험 중에 정보를 획득하기 위한 검색 쿼리들 결정
US20150037009A1 (en) Enhanced video systems and methods
US9916295B1 (en) Synchronous context alignments
US20150293928A1 (en) Systems and Methods for Generating Personalized Video Playlists
CN107636651A (zh) 使用自然语言处理生成主题索引
CN109324811B (zh) 一种用于更新教学录播数据的装置
KR20140130335A (ko) 수화 번역 및 화면 해설 서비스 방법 및 시스템
CN106796602A (zh) 用于内容创作的生产力工具
WO2012103267A2 (en) Digital asset management, authoring, and presentation techniques
CN103984772A (zh) 文本检索字幕库生成方法和装置、视频检索方法和装置
US20150213793A1 (en) Methods and systems for converting text to video
US20150371679A1 (en) Semi-automatic generation of multimedia content
CN114501064B (zh) 一种视频生成方法、装置、设备、介质及产品
Thompson Building a specialised audiovisual corpus
Gagnon et al. Towards computer-vision software tools to increase production and accessibility of video description for people with vision loss
KR102642029B1 (ko) 인공지능 기반의 자막 관리 장치, 방법 및 프로그램
EP4099711A1 (en) Method and apparatus and storage medium for processing video and timing of subtitles
Shim et al. CAMEO-camera, audio and motion with emotion orchestration for immersive cinematography
Silvestre-Cerdà et al. A system architecture to support cost-effective transcription and translation of large video lecture repositories
JP2006195900A (ja) マルチメディアコンテンツ生成装置及び方法
JP3816901B2 (ja) ストリームデータの編集方法と編集システム及びプログラム
Lee PRESTIGE: MOBILIZING AN ORALLY ANNOTATED LANGUAGE DOCUMENTATION CORPUS
Nack The Future of Media Computing: From Ontology-Based Semiosis to Communal Intelligence

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant