KR20190105287A - 머신러닝을 통한 자막추천 방법 및 그 장치 - Google Patents

머신러닝을 통한 자막추천 방법 및 그 장치 Download PDF

Info

Publication number
KR20190105287A
KR20190105287A KR1020180025632A KR20180025632A KR20190105287A KR 20190105287 A KR20190105287 A KR 20190105287A KR 1020180025632 A KR1020180025632 A KR 1020180025632A KR 20180025632 A KR20180025632 A KR 20180025632A KR 20190105287 A KR20190105287 A KR 20190105287A
Authority
KR
South Korea
Prior art keywords
image
subtitle
caption
learning
information
Prior art date
Application number
KR1020180025632A
Other languages
English (en)
Inventor
전상규
Original Assignee
주식회사컴픽스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사컴픽스 filed Critical 주식회사컴픽스
Priority to KR1020180025632A priority Critical patent/KR20190105287A/ko
Publication of KR20190105287A publication Critical patent/KR20190105287A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 머신러닝을 통한 자막추천 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 영상에 포함된 사운드 인식을 통해 다양한 영상과 그에 해당하는 사운드의 관계를 머신러닝을 통해 학습하여 학습모델을 생성한 다음, 특정 영상에 자막을 추가하여 편집할 때, 상기 학습모델을 이용하여 특정 영상에 추가할 적어도 하나 이상의 자막정보를 영상 편집자에게 제시함으로써, 영상 편집자가 학습모델을 통해 추천받은 자막을 선택하여 영상을 편집할 수 있도록 하는 머신러닝을 통한 자막추천 방법 및 그 장치에 관한 것이다.

Description

머신러닝을 통한 자막추천 방법 및 그 장치{METHOD AND APPARATUS FOR RECOMMENDING CAPTIONS THROUGH MACHINE LEARNING}
본 발명은 머신러닝을 통한 자막추천 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 영상에 포함된 사운드 인식을 통해 다양한 영상과 그에 해당하는 사운드의 관계를 머신러닝을 통해 학습하여 학습모델을 생성한 다음, 특정 영상에 자막을 추가하여 편집할 때, 상기 학습모델을 이용하여 특정 영상에 추가할 적어도 하나 이상의 자막정보를 영상 편집자에게 제시함으로써, 영상 편집자가 학습모델을 통해 추천받은 자막을 선택하여 영상을 편집할 수 있도록 하는 머신러닝을 통한 자막추천 방법 및 그 장치에 관한 것이다.
최근 들어 방송, 인터넷을 포함한 멀티미디어 환경의 비약적인 발전으로 인하여 각종 동영상 콘텐츠의 제작과 이용이 활발하게 이루어지고 있다.
이때 상기 동영상 콘텐츠에는 기본적인 영상이나 음성 이외에, 사용자들의 동영상 콘텐츠 이용에 도움을 주기 위하여 영상에 등장하는 인물이나 장비의 움직임, 행동, 음성 등의 특징정보를 문자, 숫자, 그래픽 등의 자막으로 처리하여 영상에 중첩하여 표시할 수 있다.
이와 같이 자막을 기본적인 배경이 되는 영상에 중첩하여 편집을 수행하고자 할 경우, 작가 등의 영상 편집자는 편집 프로그램을 통해 동영상을 시청하면서 자막의 편집이나 완성된 자막의 수정을 진행한다.
즉 종래의 일반적인 자막 편집방식은 동영상 콘텐츠를 편집하는 영상 편집자가 일일이 해당 영상의 장면에 맞는 자막을 판단하고, 판단한 자막을 일일이 입력하여 편집을 수행하는 수동방식의 편집 방식이었다.
하지만, 상술한 방식과 같이 영상 편집자가 입력할 자막을 일일이 판단하여 입력하는 방식은, 자막편집 작업의 속도가 크게 저하되고, 비효율적인 문제점이 있었다.
또한 영상 편집자의 기억력에 대한 한계로 인하여 기존의 유사한 영상에 더 좋은 자막이 있음에도 불구하고 편집 작업을 수행할 때 생각나는 문구로만 자막을 만들게 되기 때문에 창의적이고 혁신적인 자막을 만들어내기 어려웠으며, 결과적으로 영상 편집에 대한 질적 향상을 기대하기 어려운 실정이었다.
따라서 본 발명에서는 영상에 포함된 사운드 인식을 통해 다양한 영상과 그에 해당하는 사운드의 관계를 머신러닝을 통해 학습하여 학습모델을 생성한 다음, 특정 영상에 자막을 추가하여 편집하고자 할 경우, 상기 학습모델을 이용하여 특정 영상에 추가할 적어도 하나 이상의 자막정보를 영상 편집자에게 제시함으로써, 영상 편집자가 학습모델을 통해 추천받은 원하는 자막을 선택하여 영상을 편리하게 편집할 수 있는 방안을 제시하고자 한다.
다음으로 본 발명의 기술분야에 존재하는 선행기술에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행기술에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.
먼저 한국공개특허 제2016-0079436호(2016.07.06.)는 자막 컨텐츠 서버의 자막 서비스 제공 방법 및 그 서버에 관한 것으로, 자막 컨텐츠 서버에서 자막 서비스를 제공하는 방법에 있어서, 자막 제공자 단말로부터 자막 파일 및 상기 자막 파일의 속성 정보를 수신하는 단계, 미디어 스트리밍 서버에 저장된 상기 자막 파일에 대응하는 멀티미디어 파일을 검색하는 단계, 상기 멀티미디어 파일의 재생 정보에 대응하는 자막 파일에 대한 편집 정보를 수신하는 단계, 상기 편집 정보에 대응하여 수정된 편집 자막 파일을 상기 속성 정보와 연관시켜 자막 데이터베이스에 저장하는 단계, 및 고객 단말로부터 수신된 자막 선택 입력에 대응하여 상기 자막 데이터베이스에 기록된 상기 편집 자막 파일을 독출하고, 상기 편집 자막 파일을 상기 미디어 스트리밍 서버로 전송하는 단계를 포함하는 것을 특징으로 한다.
하지만 본 발명은 머신러닝을 통해 영상과 사운드 간의 관계를 학습하여 학습모델을 생성한 다음, 특정 영상에 자막을 넣어 편집하고자 할 때 상기 학습모델을 이용하여 특정 영상에 추가할 자막을 적어도 하나 이상 예측하여 제공하는 기술적 구성을 제시하고 있기 때문에, 상기 선행기술의 자막 제공자 단말에서 자막 파일에 대해 멀티미디어 파일에 대응되도록 편집을 수행하는 기술 구성과 비교해 볼 때 기술적 특징의 차이점이 분명하다.
또한 한국공개특허 제2016-0021659호(2016.02.26.)는 자막 방송 시스템 및 방법에 관한 것으로, 자막 방송 시스템으로서, 자막을 저장하는 자막 서버, 그리고 제1 영상을 제2 영상으로 편집한 편집 정보를 입력받고, 상기 편집 정보를 기초로 상기 제1 영상의 자막인 제1 자막을 편집하여 상기 제2 영상의 자막인 제2 자막을 생성하고, 상기 제2 자막을 상기 자막 서버에 전송하는 방송콘텐츠 관리 시스템을 포함하는 것을 특징으로 한다.
하지만 영상 편집자가 특정 영상에 자막을 넣어 편집하고자 할 때 머신러닝을 통해 영상과 사운드(음성, 음향) 간의 관계를 학습하여 생성한 학습모델을 이용하여 특정 영상에 추가할 자막을 적어도 하나 이상 예측하여 제공하는 본 발명의 기술적 구성은, 제1 영상을 제2 영상으로 편집한 편집 정보를 기초로 제1 영상의 제1 자막을 편집하여 상기 제2 영상의 제2 자막을 생성하는 상기 선행기술의 기술적 구성과는 전혀 다르다.
즉 상기 선행기술들은 자막 제공자 단말에서 자막 파일에 대해 멀티미디어 파일에 대응되도록 편집을 수행하는 구성, 편집할 영상에 대한 자막을 생성하는 구성을 제시하고 있지만, 본 발명의 기술적 특징인 다양한 영상과 그에 해당하는 사운드의 관계를 머신러닝을 통해 학습하여 학습모델을 생성하는 구성, 특정 영상에 자막을 추가하여 편집하고자 할 때 상기 학습모델을 이용하여 특정 영상에 추가할 적어도 하나 이상의 자막정보를 영상 편집자에게 제공하는 구성에 대해서는 구체적인 기재가 없으며, 이와 관련된 시사 또는 암시도 없기 때문에 기술적 차이점이 분명한 것이다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 영상에 포함된 사운드 인식을 통해 다양한 영상과 그에 해당하는 사운드를 확인하고, 머신러닝을 통해 상기 영상과 사운드 간의 매칭관계를 학습하여 영상 편집자가 제시하는 특정 영상에 대하여 자막정보를 예측하여 제공하는 학습모델을 생성할 수 있도록 하는 머신러닝을 통한 자막추천 방법 및 그 장치를 제공하는 것을 목적으로 한다.
또한 본 발명은 영상 편집자가 특정 영상에 자막을 추가하여 편집을 수행하고자 할 경우, 상기 학습모델을 이용하여 특정 영상에 추가할 자막을 적어도 하나 이상 예측하여 영상 편집자에게 제공함으로써, 영상 편집자가 이 중에서 원하는 자막을 선택하여 영상을 편집할 수 있도록 하는 머신러닝을 통한 자막추천 방법 및 그 장치를 제공하는 것을 다른 목적으로 한다.
또한 본 발명은 학습데이터가 업데이트될 때마다 지속적으로 업데이트된 학습데이터를 반영하여 고도화된 학습모델을 생성할 수 있도록 머신러닝을 수행함으로써, 다양한 영상에 대한 최적화된 자막정보를 제공할 수 있도록 하는 머신러닝을 통한 자막추천 방법 및 그 장치를 제공하는 것을 또 다른 목적으로 한다.
본 발명의 일 실시예에 따른 머신러닝을 통한 자막추천 방법은, 자막추천 장치에서, 주기적으로 수집한 복수의 동영상 콘텐츠에서 추출한 학습데이터를 학습하여 학습모델을 생성하는 학습모델 생성 단계 및 상기 생성한 학습모델을 이용하여 영상 편집자가 제시하는 특정 영상에 추가할 적어도 하나 이상의 자막정보를 예측하는 자막정보 예측 단계를 포함하며, 상기 학습데이터는 각각의 동영상 콘텐츠에서 추출한 영상과 해당 영상의 사운드를 매핑하여 저장한 매핑테이블인 것을 특징으로 한다.
또한 상기 자막추천 방법은, 상기 예측한 적어도 하나 이상의 자막정보를 확인한 영상 편집자의 특정 자막의 선택을 토대로 상기 영상에 상기 선택한 자막을 합성하는 합성 처리 단계를 더 포함하며, 상기 합성 처리 단계는, 상기 자막정보 예측 단계에서 예측한 적어도 하나 이상의 자막정보 중 영상 편집자가 선택하는 자막을 특정 영상에 합성할 때, 상기 영상 편집자가 입력하는 자막의 수정 내용을 반영하여 합성을 수행하는 것을 특징으로 한다.
또한 상기 자막추천 방법은, 방송서버, 스트리밍서버, 멀티미디어서버를 포함한 콘텐츠 제공자로부터 수집한 각각의 동영상 콘텐츠에서 학습모델에 적용할 영상을 추출하는 영상 확인 단계 및 상기 추출한 이미지 컷에 포함된 사운드를 인식하여 텍스트 정보로 변환하는 사운드 인식 단계를 더 포함하는 것을 특징으로 한다.
또한 상기 학습모델은 사전에 설정된 기간마다 신규로 수집되는 학습데이터를 학습하여 업데이트되는 것을 특징으로 한다.
또한 상기 자막추천 방법은, 상기 자막정보 예측 단계에서 상기 학습모델을 이용하여 예측한 특정 영상에 추가할 자막정보 중에서 사전에 설정한 확률 이상으로 예측되는 자막정보만을 영상 편집자에게 제공하며, 상기 영상 편집자에게 제공되는 자막정보는 확률이 가장 높은 순서대로 영상 편집자 단말에 표시되도록 하는 것을 특징으로 한다.
아울러, 본 발명의 일 실시예에 따른 머신러닝을 통한 자막추천 장치는, 주기적으로 수집한 복수의 동영상 콘텐츠에서 추출한 학습데이터를 학습하여 학습모델을 생성하는 학습모델 생성부 및 상기 생성한 학습모델을 이용하여 영상 편집자가 제시하는 특정 영상에 추가할 적어도 하나 이상의 자막정보를 예측하는 자막정보 예측부를 포함하며, 상기 학습데이터는 각각의 동영상 콘텐츠에서 추출한 영상과 해당 영상의 사운드를 매핑하여 저장한 매핑테이블인 것을 특징으로 한다.
또한 상기 자막추천 장치는, 상기 예측한 적어도 하나 이상의 자막정보를 확인한 영상 편집자의 특정 자막의 선택을 토대로 상기 영상에 상기 선택한 자막을 합성하는 합성 처리부를 더 포함하며, 상기 합성 처리부는, 상기 자막정보 예측부에서 예측한 적어도 하나 이상의 자막정보 중 영상 편집자가 선택하는 자막을 특정 영상에 합성할 때, 상기 영상 편집자가 입력하는 자막의 수정 내용을 반영하여 합성을 수행하는 것을 특징으로 한다.
또한 상기 자막추천 장치는, 방송서버, 스트리밍서버, 멀티미디어서버를 포함한 콘텐츠 제공자로부터 수집한 각각의 동영상 콘텐츠에서 학습모델에 적용할 영상을 추출하는 영상 확인부 및 상기 추출한 이미지 컷에 포함된 사운드를 인식하여 텍스트 정보로 변환하는 사운드 인식부를 더 포함하는 것을 특징으로 한다.
또한 상기 학습모델은 사전에 설정된 기간마다 신규로 수집되는 학습데이터를 학습하여 업데이트되는 것을 특징으로 한다.
또한 상기 자막추천 장치는, 상기 자막정보 예측부에서 상기 학습모델을 이용하여 예측한 특정 영상에 추가할 자막정보 중에서 사전에 설정한 확률 이상으로 예측되는 자막정보만을 영상 편집자에게 제공하며, 상기 영상 편집자에게 제공되는 자막정보는 확률이 가장 높은 순서대로 영상 편집자 단말에 표시하도록 하는 것을 특징으로 한다.
이상에서와 같이 본 발명의 머신러닝을 통한 자막추천 방법 및 그 장치에 따르면, 각종 방송콘텐츠에 관련된 다양한 영상과 사운드의 매칭관계를 머신러닝을 통해 학습하여 학습모델을 생성하고, 상기 학습모델을 이용하여 영상 편집자가 편집하고자 하는 특정 영상에 대한 자막정보를 적어도 하나 이상 추천하여 제공함으로써, 상기 학습모델로부터 추천받은 자막 중 자신이 원하는 자막을 선택하여 편리하게 영상을 편집할 수 있고, 이에 따라 영상 편집자가 해당 영상에 맞추어 입력할 자막을 일일이 판단하여 입력하는 불편함을 해소할 수 있으며, 영상편집 작업의 속도와 효율을 향상시키는 효과가 있다.
또한 본 발명은 다양한 영상이 업데이트될 때마다 머신러닝을 지속적으로 수행하여 학습모델을 고도화함으로써, 언제나 최적화된 자막정보를 추천하는 환경을 제공할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 머신러닝을 통한 자막추천 장치의 구성을 개략적으로 나타낸 도면이다.
도 2는 상기 도 1의 자막추천 장치에 적용되는 학습모델의 생성과정을 설명하기 위한 도면이다.
도 3은 상기 도 1의 자막추천 장치에서의 학습모델을 이용한 자막정보 제공과정을 설명하기 위한 도면이다.
도 4는 상기 도 1의 자막추천 장치의 구성을 상세하게 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따라 CNN을 통해 머신러닝을 수행하는 경우, CNN의 머신러닝 구조와 학습과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 머신러닝을 통한 자막추천 방법의 동작과정을 상세하게 나타낸 순서도이다.
이하, 첨부한 도면을 참조하여 본 발명의 머신러닝을 통한 자막추천 방법 및 그 장치에 대한 바람직한 실시 예를 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 또한 본 발명의 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는 것이 바람직하다.
도 1은 본 발명의 일 실시예에 따른 머신러닝을 통한 자막추천 장치의 구성을 개략적으로 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명은 자막추천 장치(100), 영상 편집자 단말(200), 데이터베이스(300)로 구성된다.
상기 자막추천 장치(100)는 각종 동영상 콘텐츠의 제작이나 유통을 수행하는 방송서버, 스트리밍서버, 멀티미디어서버 등의 각종 콘텐츠 제공자(contents provider)로부터 수집하는 다양한 동영상 콘텐츠에서 각종 영상을 추출함과 동시에, 상기 영상별로 음성인식을 수행하여 사운드를 확인하고, 해당 영상과 사운드(자막이 포함된 경우 해당 자막도 함께 이용할 수 있음)의 매칭관계를 머신러닝을 통해 학습하여 학습모델을 생성하며, 상기 생성한 학습모델을 상기 데이터베이스(300)에 저장하여 관리한다(①).
이때 상기 영상은 전체 동영상 콘텐츠 중에서 일부 시간 구간의 영상을 추출한 클립 영상 등이 될 수 있고, 해당 영상에 포함된 사운드가 공지의 음성인식 방식을 통해 인식되어 텍스트로 변환된다.
즉 각각의 동영상 콘텐츠에서 추출한 다양한 영상과 해당 영상의 사운드에 대한 매핑테이블인 학습데이터를 토대로 머신러닝을 수행하여 학습모델을 생성하는 것이다.
또한 상기 자막추천 장치(100)는 지도학습(supervised learning) 방법으로 널리 알려져 있는 CNN(Convolution Neural Network) 또는 ANN(Artificial Neural Network)을 통해 상기 학습데이터를 학습하여 학습모델을 생성하는 것이 바람직하지만, 학습데이트를 학습하기 위한 기계학습방법은 그 제한을 두지 않음을 밝혀둔다.
이중에서 상기 CNN을 통한 상기 자막추천 장치(100)의 기계학습 구조는 하기의 도 5를 참조하여 상세히 설명하기로 하고, 여기에서의 상세한 설명은 생략한다.
또한 상기 자막추천 장치(100)는 콘텐츠 제공자로부터 수집한 각종 동영상 콘텐츠를 이용하여 학습모델을 생성한 이후, 작가 등의 영상 편집자가 편집을 원하는 특정 영상에 자막을 추가하기를 원할 경우, 상기 영상 편집자 단말(200)로부터 특정 영상을 입력받는다(②).
또한 상기 자막추천 장치(100)는 상기 영상 편집자가 제공하는 특정 영상을 상기 학습모델에 입력하여 특정 영상에 추가할 자막을 적어도 하나 이상 자동으로 예측하고, 예측한 자막정보를 영상 편집자 단말(200)로 제공하며(③), 영상 편집자가 여러 자막 중에서 어느 하나의 자막을 선택하여 편리하게 영상의 편집을 수행할 수 있도록 한다(④).
한편, 상기 자막추천 장치(100)는 상기 학습모델을 구축한 이후, 새로운 동영상 콘텐츠를 지속적으로 수집하여 상기 학습모델의 성능을 업그레이드하는 기능을 수행한다.
즉 학습데이터가 업데이트될 때마다 이를 반영하여 더욱 고도화된 학습모델을 생성할 수 있도록 머신러닝을 수행함으로써, 다양한 영상에 대한 최적화된 자막정보를 제공할 수 있도록 하는 것이다.
상기 영상 편집자 단말(200)은 작가, PD 등의 영상 편집자가 다수의 카메라에서 촬영한 영상을 편집하거나 편집대상 영상에 텍스트, 그래픽 등의 자막을 중첩하는 등의 편집기능을 수행하기 위한 디스플레이 장치 및 편집 장치를 포함하는 것으로서, 상기 영상 편집자가 자막을 추가할 특정 영상을 입력하면, 해당 영상을 상기 자막추천 장치(100)로 전송하여 해당 영상에 적합한 자막정보의 제공을 요청한다.
또한 상기 영상 편집자 단말(200)은 사전에 구축해놓은 학습모델을 통해 자막정보를 예측하는 상기 자막추천 장치(100)로부터 영상 편집자가 제공하는 특정 영상에 대한 적어도 하나 이상의 자막정보가 입력되면, 이를 화면상에 표시하며, 화면상에 표시된 적어도 하나 이상의 자막정보를 확인한 영상 편집자의 특정 자막의 선택을 토대로 영상과 자막의 합성을 처리한다.
이때 상기 영상 편집자는 상기 자막추천 장치(100)에서 제시한 특정 자막을 그대로 해당 영상에 중첩하여 편집하거나, 또는 특정 자막을 선택한 후 일부 내용을 수정하여 영상에 중첩하여 편집할 수 있다. 즉 상기 영상 편집자 단말(200)은 공지되어 있는 모든 형태의 편집 프로그램을 사용하여 다양한 형태의 편집이 이루어지도록 기능을 제공한다.
상기 데이터베이스(300)는 학습데이터 데이터베이스(310), 학습모델 데이터베이스(320), 콘텐츠 데이터베이스(330)로 구성된다.
또한 상기 데이터베이스(300)는 네트워크를 통해 콘텐츠 제공자로부터 수집한 기존에 방송되었거나 제작된 다양한 동영상 콘텐츠와, 각각의 동영상 콘텐츠에서 추출한 영상과 해당 영상의 사운드(즉 음성인식을 통해 확인한 텍스트 정보)에 대한 매핑테이블로 이루어진 학습데이터를 학습데이터 데이터베이스(310)에 저장하여 관리한다.
또한 상기 데이터베이스(300)는 상기 수집한 다양한 동영상 콘텐츠를 참조하여 상기 자막추천 장치(100)에서 생성한 학습모델을 학습모델 데이터베이스(320)에 저장하여 관리한다. 이때 상기 학습모델 데이터베이스(320)는 상기 자막추천 장치(100)에서 새로운 동영상 콘텐츠를 지속적으로 수집하여 업그레이드하는 학습모델을 최신상태로 유지하도록 관리한다.
또한 상기 데이터베이스(300)는 상기 영상 편집자 단말(200)에서 학습모델을 통해 예측되는 자막정보를 이용하여 편집이 완료된 각종 동영상 콘텐츠를 콘텐츠 데이터베이스(330)에 저장하여 관리한다.
한편, 상기 자막추천 장치(100)에서 수행하는 머신러닝을 이용하여 자동화된 자막 및 영상의 합성과정을 도 2와 도 3을 참조하여 상세하게 설명하면 다음과 같다.
도 2는 상기 도 1의 자막추천 장치(100)에 적용되는 학습모델의 생성과정을 설명하기 위한 도면이며, 도 3은 상기 도 1의 자막추천 장치(100)에서의 학습모델을 이용한 자막정보 제공과정을 설명하기 위한 도면이다.
먼저, 학습모델을 생성하기 위해서는 도 2에 도시된 바와 같이 상기 자막추천 장치(100)에서 각종 동영상 콘텐츠의 제작, 방송 및 유통을 수행하는 콘텐츠 제공자로부터 다양한 동영상 콘텐츠를 수집한 후, 각각의 동영상 콘텐츠에서 각종 이미지 컷을 추출하고, 상기 이미지 컷에 해당하는 사운드를 음성인식 기법을 통해 텍스트 정보로 변환한다.
그리고 상기 자막추천 장치(100)는 이미지 컷 #1 내지 이미지 컷 #n과 해당 이미지 컷에 대응하는 사운드 #1 내지 사운드 #n의 매칭관계를 머신러닝을 통해 학습하여 학습모델을 생성하고, 상기 생성한 학습모델을 상기 데이터베이스(300)에 저장한다.
이때 상기 이미지 컷은 일부 구간의 클립 영상이나 정지 영상이 될 수 있으며, 해당 이미지 컷의 사운드 정보를 통해 상기 이미지 컷에 등장하는 인물이나 객체의 움직임이나 방향, 감정상태 등의 정보를 확인하여 자막정보를 예측하는 학습모델을 생성하는데 적용할 수 있다.
또한 상기 자막추천 장치(100)는 상기 도 2에서와 같이 학습모델을 생성한 이후, 작가나 PD 등의 영상 편집자가 특정 영상에 자막을 추가하여 편집하기 위하여 상기 영상 편집자 단말(200)을 통해 편집대상 이미지 컷을 입력하면, 상기 자막추천 장치(100)는 편집대상 이미지 컷을 상기 학습모델에 입력하여 추천자막 #1 내지 #n을 예측한다.
그리고 상기 자막추천 장치(100)는 상기 학습모델을 이용하여 상기 예측된 추천자막 #1 내지 #n을 상기 영상 편집자 단말(200)로 제공하고, 이를 확인한 상기 영상 편집자가 추천자막 #1 내지 #n 중 어느 하나의 자막을 선택하여 편집대상 이미지 컷에 추가하는 편집을 수행한다. 이때 상기 자막추천 장치(100)는 학습모델을 이용하여 예측한 추천자막을 상기 영상 편집자 단말(200)로 제공할 때, 사전에 설정한 확률 이상으로 예측되는 자막을 확률이 높은 순서대로 제공한다.
즉 상기 자막추천 장치(100)는 영상 편집자에 의해 임의의 편집대상 이미지 컷이 제공되면, 이를 상기 학습모델에 적용하여 해당 이미지 컷에 적합한 자막정보를 적어도 하나 이상 예측하여 제공함으로써, 영상 편집자가 영상에 맞는 자막을 일일이 판단하여 입력하는 불편함을 해소하면서 영상편집의 속도와 효율을 높이는 것이다.
도 4는 상기 도 1의 자막추천 장치(100)의 구성을 상세하게 나타낸 도면이다.
도 4에 도시된 바와 같이, 상기 자막추천 장치(100)는 데이터 수집부(110), 영상 확인부(120), 사운드 인식부(130), 학습모델 생성부(140), 자막정보 예측부(150), 통신 인터페이스부(160), 합성 처리부(170), 저장부(180), 제어부(190) 등으로 구성된다.
또한 상기 자막추천 장치(100)는 도면에 도시하지는 않았지만, 각 구성 부분에 동작전원을 공급하는 전원부, 각종 기능 설정을 위하여 키신호 입력을 수행하는 입력부 등을 추가로 포함할 수 있다.
데이터 수집부(110)는 네트워크를 통해 방송서버, 스트리밍서버, 멀티미디어서버를 포함한 콘텐츠 제공자로부터 기존에 방송되었거나 제작된 동영상 콘텐츠를 수집하고, 제어부(190)의 제어를 토대로 수집한 다양한 동영상 콘텐츠를 상기 데이터베이스(300)에 저장한다.
이때 상기 데이터 수집부(110)에서의 동영상 콘텐츠의 수집은 일회성으로 그치지 않고, 자막정보 예측을 수행하는 학습모델의 업그레이드를 위하여 일정 주기마다 지속적으로 이루어지는 것이 바람직하다.
영상 확인부(120)는 상기 데이터 수집부(110)에서 콘텐츠 제공자로부터 주기적으로 수집한 각각의 동영상 콘텐츠에서 학습모델을 생성하는데 사용할 영상을 추출한다.
즉 동영상 컨텐츠 중에서 학습데이터로 사용할 일부 구간의 클립 영상이나 정지 영상을 추출하는 전처리 과정을 수행하는 것이다.
사운드 인식부(130)는 상기 영상 확인부(120)에서 추출한 영상에 포함된 사운드를 인식하여 텍스트 정보로 변환한다.
즉 상기 영상에 포함되어 있는 사운드를 음성인식 프로그램을 사용하여 텍스트 정보로 변환하거나, 자막정보가 있는 경우 해당 자막을 확인하는 전처리 과정을 수행하는 것이다.
이때 상기 영상 확인부(120)에서 추출한 각각의 영상과 상기 사운드 인식부(130)에서 확인한 각각의 영상에 대한 사운드 정보를 상호간에 매핑하여 저장한 매핑테이블이 상기 학습모델 생성부(140)에서 생성되는 학습모델의 학습데이터로 사용되며, 상기 생성한 학습데이터는 상기 학습데이터 데이터베이스(310)에 저장하여 관리된다.
학습모델 생성부(140)는 상기 데이터 수집부(110)에서 주기적으로 수집한 복수의 동영상 콘텐츠에 대하여 상기 영상 확인부(120)와 상기 사운드 인식부(130)를 통해 처리한 학습데이터의 머신러닝을 수행하여 학습모델을 생성하고, 상기 제어부(190)의 제어를 토대로 상기 생성한 학습모델을 상기 학습모델 데이터베이스(320)에 저장한다.
또한 상기 학습모델 생성부(140)는 사전에 설정된 기간마다 신규로 수집되는 학습데이터를 학습하여 학습모델의 업데이트를 수행한다. 즉 다양한 영상에 대한 최적화된 자막정보의 예측 및 제공을 위하여, 학습데이터가 업데이트될 때마다 이를 반영하여 더욱 고도화된 학습모델을 생성하는 것이다.
자막정보 예측부(150)는 상기 통신 인터페이스부(160)를 통해 상기 영상 편집자 단말(200)로부터 자막정보 예측을 위한 편집대상 영상이 입력되면, 상기 학습모델 생성부(140)에서 생성한 상기 학습모델에 상기 편집대상 영상을 입력하고, 상기 편집대상 영상에 추가할 적어도 하나 이상의 자막정보를 예측한다.
이때 예측한 적어도 하나 이상의 자막정보는 상기 통신 인터페이스부(160)를 통해 상기 영상 편집자 단말(200)로 제공된다. 특히, 상기 자막정보 예측부(150)는 상기 학습모델을 이용하여 예측한 특정 영상에 추가할 자막정보 중에서 사전에 설정한 확률 이상으로 예측되는 자막정보만을 상기 영상 편집자 단말(200)로 제공하며, 상기 영상 편집자 단말(200)로 제공되는 자막정보는 확률이 가장 높은 순서대로 표시되도록 제어하는 것이 바람직하다.
통신 인터페이스부(160)는 상기 데이터 수집부(110)에서 수집한 다양한 동영상 콘텐츠, 상기 영상 확인부(120)와 상기 사운드 인식부(130)에서 전처리한 학습데이터, 상기 학습모델 생성부(140)에서 생성한 학습모델을 상기 데이터베이스(300)로 전송한다.
또한 상기 통신 인터페이스부(160)는 상기 영상 편집자 단말(200)과 상기 데이터베이스(300) 각각으로부터 편집대상 영상과 상기 편집대상 영상의 자막정보 추천을 위한 학습모델을 수신하여 상기 자막정보 예측부(150)로 전달하고, 상기 자막정보 예측부(150)에서 예측한 편집대상 영상에 대하여 예측된 적어도 하나 이상의 자막정보를 상기 영상 편집자 단말(200)로 전송한다.
합성 처리부(170)는 상기 자막정보 예측부(150)에서 예측한 적어도 하나 이상의 자막정보를 확인한 상기 영상 편집자 단말(200)의 특정 자막의 선택을 토대로 상기 영상에 상기 선택한 자막을 합성하는 기능을 수행한다.
이때 상기 합성 처리부(170)는 상기 자막정보 예측부(150)에서 예측한 적어도 하나 이상의 자막정보 중 영상 편집자가 선택하는 자막을 특정 영상에 합성할 때, 상기 영상 편집자가 선택한 특정 자막을 그대로 해당 영상에 중첩하여 편집하거나, 또는 상기 영상 편집자가 입력하는 자막의 수정 내용을 반영하여 합성을 수행한다.
저장부(180)는 상기 자막추천 장치(100)에서 사용되는 각종 동작프로그램을 저장하고 있으며, 상기 데이터 수집부(110)에서 수집한 동영상 콘텐츠, 상기 영상 확인부(120)와 상기 사운드 인식부(130)에서 전처리한 학습데이터, 상기 학습모델 생성부(140)에서 생성한 학습모델, 상기 자막정보 예측부(150)에서 예측한 자막정보를 임시 저장하는 기능을 수행한다.
제어부(190)는 상기 자막추천 장치(100)의 동작을 총괄적으로 제어하는 부분으로서, 상기 데이터 수집부(110)에서의 콘텐츠 제공자로부터의 다양한 동영상 콘텐츠 수집 및 저장을 제어하고, 상기 영상 확인부(120)와 상기 사운드 인식부(130)에서의 학습모델에 적용할 학습데이터의 전처리 및 상기 학습데이터의 저장을 제어하며, 상기 학습모델 생성부(140)에서의 상기 학습데이터의 머신러닝을 통한 자막정보 예측을 위한 학습모델의 생성 및 저장을 제어한다.
또한 상기 제어부(190)는 상기 자막정보 예측부(150)에서의 학습모델을 이용한 편집대상 영상에 대한 자막정보의 예측을 제어하고, 상기 통신 인터페이스부(160)에서의 상기 영상 편집자 단말(200)과의 상기 편집대상 영상 및 예측된 자막정보의 송수신을 제어하며, 상기 합성 처리부(170)에서의 상기 자막정보 예측부(150)에서 예측한 자막정보를 이용한 상기 영상 편집자의 영상 및 자막의 합성을 제어한다.
또한 상기 제어부(190)는 상기 학습모델이 생성된 이후, 상기 학습모델 생성부(140)에서의 신규로 수집되는 학습데이터를 이용한 학습모델의 업데이트를 제어한다.
도 5는 본 발명의 일 실시예에 따라 CNN을 통해 머신러닝을 수행하는 경우, CNN의 머신러닝 구조와 학습과정을 설명하기 위한 도면이다.
상기 CNN의 학습구조는 전처리 과정을 통해 이미지화된 학습데이터가 입력되는 입력 레이어, 컨볼루션(convolution) 레이어, 풀링(pooling) 레이어 및 완전연관(fully connected) 레이어로 구성된다.
CNN을 통해 상기 학습데이터를 머신러닝하는 경우, 상기 자막추천 장치(100)는 상기 학습데이터를 CNN에 적합한 데이터로 변환하는 전처리 과정을 수행한다.
전처리 과정은 상기 학습데이터를 구성하는 각각의 영상(즉 이미지 컷)과 상기 영상에 대한 사운드를 소정의 과정에 따라 수치화하고, 상기 수치화한 각각의 영상과 해당 영상과 매핑된 사운드를 하나의 단위 이미지로 각각 변환한다.
이후 상기 자막추천 장치(100)는 상기 복수의 이미지를 결합하여 특정 해상도(예를 들어 32 x 32)를 가지는 이미지 데이터를 생성한다.
즉 상기 이미지 데이터는 수치화된 상기 학습데이터가 이미지화된 것으로서, 상기 학습데이터의 용량에 따라 적어도 하나 이상으로 구성될 수 있다.
또한 상기 입력 레이어는 상기 전처리 과정을 통해 이미지 데이터로 변환된 학습데이터를 입력받으며, 상기 컨볼루션 레이어는 특정 가중치를 가지는 커널을 미리 설정한 스트라이드(즉 상기 커널의 이동단위를 의미함)에 따라 상기 학습데이터에 대한 이미지 데이터의 특정 부분과 상기 커널의 가중치를 컨볼루션하여, 상기 이미지 데이터의 특정 부분에 대한 특징 맵을 생성하여 출력한다.
또한 풀링 레이어는 상기 커널과 스트라이드의 크기에 따라 상기 컨볼루션 레이어로부터 출력되는 특정 맵을 풀링함으로써, 상기 특징 맵을 적어도 하나 이상의 서브 이미지 데이터로 서브 샘플링한다.
한편 상기 서브 샘플링은 맥스 풀링(max pooling) 또는 에버리지 풀링(average pooling) 방법을 통해 수행될 수 있다.
또한 상기 CNN은 상기 컨볼루션 레이어와 상기 풀링 레이어가 하나의 쌍으로 구성되어 적어도 하나 이상으로 구현되고, 상기 컨볼루션 레이어를 통한 컨볼루션과 상기 풀링 레이어를 통한 서브 샘플링 과정을 반복적으로 수행할 수 있으며, 이를 통해 특정 이미지 컷의 사운드(즉 자막정보)에 대한 최적화된 특징 맵을 생성할 수 있다.
또한 완전연관 레이어는 상기 생성한 적어도 하나 이상의 특징 맵을 연결시켜 특정 이미지 컷에 대한 자막정보를 출력할 수 있도록 한다. 이때, 출력되는 상기 자막정보는 적어도 하나 이상으로 구성되고, 상기 각각의 자막정보는 0 ~ 1 사이의 확률 값을 가지며, 소프트 맥스(soft max)를 통해 제일 높은 확률 값을 가지는 자막정보를 선택함으로써, 상기 특정 이미지 컷에 대한 최적의 자막정보를 생성한다.
이러한 과정을 통해 상기 자막추천 장치(100)는 각각의 이미지 컷과 상기 이미지 컷의 자막정보 간의 매핑관계를 머신러닝하여 CNN을 통한 학습모델을 생성할 수 있으며, 상기 생성한 학습모델의 입력은 이미지 컷이 되며, 출력은 상기 특정 이미지 컷에 대한 자막정보가 된다.
한편 특정 이미지 컷은 상기에서 설명한 것과 전처리 과정을 통해 이미지화되어 상기 학습모델에 입력된다.
또한 자막추천 장치(100)는 상기 학습모델을 통해 출력되는 적어도 하나 이상의 자막정보 중 중 가장 높은 확률 값을 가지는 자막정보를 선택함으로써, 상기 특정 이미지 컷에 대한 자막정보를 생성하여 영상 편집자에게 제공할 수 있도록 한다.
상기 설명에서와 같이, 본 발명의 일 실시예에 따른 자막추천 장치(100)는 CNN을 통해 이미지 컷과 해당 이미지 컷에 대한 사운드(자막정보)을 머신러닝하여 학습모델을 생성할 수 있다. 또한 상기 자막추천 장치(100)는 상기 학습모델을 통해 영상 편집자에게 편집대상의 특정 이미지 컷에 대한 최적의 자막정보를 예측하여 제공함으로서, 영상 편집자로 하여금 특정 이미지 컷과 자막을 효율적으로 합성하기 위한 직관력을 효과적으로 습득할 수 있도록 한다.
다만 본 발명에서 상기 학습데이터를 CNN을 통해 학습하는 것을 예로 하여 설명하였지만, 특정 이미지 컷에 대해 최적의 자막정보를 예측하여 제공하는 것이 주된 목적이므로, 상기 학습데이터를 학습하기 위한 머신러닝 방식에 제한을 두지 않음을 밝혀둔다.
또한 상기 자막추천 장치(100)는 상기 학습데이터가 업데이트 되는 경우, 상기 업데이트된 학습데이터를 반영하여 학습모델을 업데이트함으로써, 언제나 영상 편집자에게 특정 이미지 컷에 대한 최적화된 자막정보를 제공할 수 있도록 한다.
다음에는, 이와 같이 구성된 본 발명에 따른 머신러닝을 통한 자막추천 방법의 일 실시예를 도 6을 참조하여 상세하게 설명한다. 이때 본 발명의 방법에 따른 각 단계는 사용 환경이나 당업자에 의해 순서가 변경될 수 있음을 밝혀둔다.
도 6은 본 발명의 일 실시예에 따른 머신러닝을 통한 자막추천 방법의 동작과정을 상세하게 나타낸 순서도이다.
우선, 자막추천 장치(100)는 네트워크를 통해 주기적으로 방송사 등의 콘텐츠 제공자로부터 기존에 방송되었거나 제작된 다양한 동영상 콘텐츠를 수집한다(S100).
또한 상기 자막추천 장치(100)는 상기 S100 단계를 통해 콘텐츠 제공자로부터 수집한 다양한 동영상 콘텐츠에서 학습모델 생성에 사용할 각종 영상과 해당 영상의 사운드에 대한 학습데이터를 준비한다(S200).
즉 상기 자막추천 장치(100)는 동영상 콘텐츠에서 각종 영상을 추출하고, 상기 영상별로 음성인식을 수행하여 사운드를 확인하는 전처리를 통해 학습모델 생성에 사용되는 학습데이터를 준비하는 것이다. 이때 상기 학습데이터는 각각의 동영상 콘텐츠에서 추출한 영상과 해당 영상의 사운드를 매핑하여 저장한 매핑테이블이고, 상기 영상은 동영상 콘텐츠에서 일부 시간 구간의 영상을 추출한 클립 영상 등이며, 해당 영상에 포함된 사운드는 공지의 음성인식 방식을 통해 인식되어 텍스트로 변환된 정보이다.
상기 S200 단계를 통해 학습데이터가 준비되면, 상기 자막추천 장치(100)는 각각의 영상과 해당 영상에 대한 사운드의 매칭관계를 머신러닝을 통해 학습하여 학습모델을 생성하고, 상기 생성한 학습모델을 데이터베이스(300)에 저장한다(S300).
상기 S100 단계 내지 S300 단계를 통해 다양한 동영상 데이터를 수집하여 학습모델을 생성한 이후, 상기 자막추천 장치(100)는 특정 영상에 자막을 추가하여 편집을 수행하고자 하는 영상 편집자의 조작을 토대로 영상 편집자 단말(200)로부터 자막을 넣어 편집할 특정 영상이 입력되는지를 판단한다(S400).
즉 특정 영상에 자막을 넣어 편집을 수행하고자 하는 영상 편집자가 직접 영상을 보고 판단한 다음 자막정보를 입력하지 않고, 상기 자막추천 장치(100)로부터 학습모델을 통해 예측되는 자막정보를 적어도 하나 이상 추천받기 위하여 특정 영상을 상기 자막추천 장치(100)로 제공하여 자막정보의 예측을 요청하는지를 판단하는 것이다.
상기 S400 단계의 판단결과 자막을 넣어 편집할 특정 영상이 입력되면, 상기 자막추천 장치(100)는 상기 영상 편집자 단말(200)로부터 제공받은 특정 영상을 상기 S300 단계에서 생성한 상기 학습모델에 입력하여 특정 영상에 추가할 자막을 적어도 하나 이상 자동으로 예측한다(S500).
그리고 상기 자막추천 장치(100)는 상기 S500 단계에서 예측한 적어도 하나 이상의 자막정보를 상기 영상 편집자 단말(200)로 전송한다(S600).
이때 상기 자막추천 장치(100)에서 상기 학습모델을 통해 예측하는 자막정보는 사전에 설정한 확률 이상으로 예측되는 자막이며, 확률이 높은 순서대로 상기 영상 편집자 단말(200)로 제공된다.
그러면, 상기 영상 편집자 단말(200)은 상기 자막추천 장치(100)로부터 전송받은 특정 영상에 대하여 추천된 자막을 화면상에 표시하여 영상 편집자가 확인하도록 하며, 상기 영상 편집자에 의해 어느 하나의 특정 자막이 선택되면, 상기 자막추천 장치(100)는 상기 특정 영상에 영상 편집자가 선택한 자막을 합성하고(S700), 특정 영상에 추가할 자막을 편집한 콘텐츠를 상기 데이터베이스(300)에 저장한다(S800).
이때 상기 자막추천 장치(100)는 상기 영상 편집자가 선택하는 자막을 특정 영상에 추가하여 합성할 때, 상기 영상 편집자가 선택한 자막을 해당 영상에 그대로 중첩하여 편집하거나, 또는 상기 영상 편집자가 선택한 자막의 수정 내용을 반영하여 편집을 수행한다.
한편, 상기 자막추천 장치(100)는 사전에 설정된 기간마다 콘텐츠 제공자들로부터 신규로 수집한 학습데이터를 토대로 학습모델을 업데이트하여 관리한다.
이처럼, 본 발명은 영상과 사운드의 매칭관계를 머신러닝을 통해 학습하여 학습모델을 생성하고, 상기 학습모델을 이용하여 영상 편집자가 편집하고자 하는 특정 영상에 대한 자막정보를 적어도 하나 이상 추천하고, 영상 편집자가 원하는 자막을 선택하여 편리하게 영상을 편집할 수 있기 때문에, 영상 편집자가 해당 영상에 맞추어 입력할 자막을 일일이 판단하여 입력하는 불편함을 해소하면서 영상 편집에 대한 질적인 향상을 얻을 수 있다.
또한 본 발명은 다양한 영상이 업데이트될 때마다 머신러닝을 지속적으로 수행하여 학습모델을 고도화할 수 있기 때문에, 언제나 최적화된 자막정보를 추천하는 환경을 제공할 수 있다.
이상에서와 같이 본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 판단되어야 할 것이다.
100 : 자막추천 장치 110 : 데이터 수집부
120 : 영상 확인부 130 : 사운드 인식부
140 : 학습모델 생성부 150 : 자막정보 예측부
160 : 통신 인터페이스부 170 : 합성 처리부
180 : 저장부 190 : 제어부
200 : 영상 편집자 단말 300 : 데이터베이스
310 : 학습데이터 데이터베이스 320 : 학습모델 데이터베이스
330 : 콘텐츠 데이터베이스

Claims (10)

  1. 자막추천 장치에서, 주기적으로 수집한 복수의 동영상 콘텐츠에서 추출한 학습데이터를 학습하여 학습모델을 생성하는 학습모델 생성 단계; 및
    상기 생성한 학습모델을 이용하여 영상 편집자가 제시하는 특정 영상에 추가할 적어도 하나 이상의 자막정보를 예측하는 자막정보 예측 단계;를 포함하며,
    상기 학습데이터는 각각의 동영상 콘텐츠에서 추출한 영상과 해당 영상의 사운드를 매핑하여 저장한 매핑테이블인 것을 특징으로 하는 머신러닝을 통한 자막추천 방법.
  2. 청구항 1에 있어서,
    상기 자막추천 방법은,
    상기 예측한 적어도 하나 이상의 자막정보를 확인한 영상 편집자의 특정 자막의 선택을 토대로 상기 영상에 상기 선택한 자막을 합성하는 합성 처리 단계;를 더 포함하며,
    상기 합성 처리 단계는, 상기 자막정보 예측 단계에서 예측한 적어도 하나 이상의 자막정보 중 영상 편집자가 선택하는 자막을 특정 영상에 합성할 때, 상기 영상 편집자가 입력하는 자막의 수정 내용을 반영하여 합성을 수행하는 것을 특징으로 하는 머신러닝을 통한 자막추천 방법.
  3. 청구항 1에 있어서,
    상기 자막추천 방법은,
    방송서버, 스트리밍서버, 멀티미디어서버를 포함한 콘텐츠 제공자로부터 수집한 각각의 동영상 콘텐츠에서 학습모델에 적용할 영상을 추출하는 영상 확인 단계; 및
    상기 추출한 이미지 컷에 포함된 사운드를 인식하여 텍스트 정보로 변환하는 사운드 인식 단계;를 더 포함하는 것을 특징으로 하는 머신러닝을 통한 자막추천 방법.
  4. 청구항 1에 있어서,
    상기 학습모델은,
    사전에 설정된 기간마다 신규로 수집되는 학습데이터를 학습하여 업데이트되는 것을 특징으로 하는 머신러닝을 통한 자막추천 방법.
  5. 청구항 1에 있어서,
    상기 자막추천 방법은,
    상기 자막정보 예측 단계에서 상기 학습모델을 이용하여 예측한 특정 영상에 추가할 자막정보 중에서 사전에 설정한 확률 이상으로 예측되는 자막정보만을 영상 편집자에게 제공하며,
    상기 영상 편집자에게 제공되는 자막정보는 확률이 가장 높은 순서대로 영상 편집자 단말에 표시되도록 하는 것을 특징으로 하는 머신러닝을 통한 자막추천 방법.
  6. 주기적으로 수집한 복수의 동영상 콘텐츠에서 추출한 학습데이터를 학습하여 학습모델을 생성하는 학습모델 생성부; 및
    상기 생성한 학습모델을 이용하여 영상 편집자가 제시하는 특정 영상에 추가할 적어도 하나 이상의 자막정보를 예측하는 자막정보 예측부;를 포함하며,
    상기 학습데이터는 각각의 동영상 콘텐츠에서 추출한 영상과 해당 영상의 사운드를 매핑하여 저장한 매핑테이블인 것을 특징으로 하는 머신러닝을 통한 자막추천 장치.
  7. 청구항 6에 있어서,
    상기 자막추천 장치는,
    상기 예측한 적어도 하나 이상의 자막정보를 확인한 영상 편집자의 특정 자막의 선택을 토대로 상기 영상에 상기 선택한 자막을 합성하는 합성 처리부;를 더 포함하며,
    상기 합성 처리부는, 상기 자막정보 예측부에서 예측한 적어도 하나 이상의 자막정보 중 영상 편집자가 선택하는 자막을 특정 영상에 합성할 때, 상기 영상 편집자가 입력하는 자막의 수정 내용을 반영하여 합성을 수행하는 것을 특징으로 하는 머신러닝을 통한 자막추천 장치.
  8. 청구항 6에 있어서,
    상기 자막추천 장치는,
    방송서버, 스트리밍서버, 멀티미디어서버를 포함한 콘텐츠 제공자로부터 수집한 각각의 동영상 콘텐츠에서 학습모델에 적용할 영상을 추출하는 영상 확인부; 및
    상기 추출한 이미지 컷에 포함된 사운드를 인식하여 텍스트 정보로 변환하는 사운드 인식부;를 더 포함하는 것을 특징으로 하는 머신러닝을 통한 자막추천 장치.
  9. 청구항 6에 있어서,
    상기 학습모델은,
    사전에 설정된 기간마다 신규로 수집되는 학습데이터를 학습하여 업데이트되는 것을 특징으로 하는 머신러닝을 통한 자막추천 장치.
  10. 청구항 6에 있어서,
    상기 자막추천 장치는,
    상기 자막정보 예측부에서 상기 학습모델을 이용하여 예측한 특정 영상에 추가할 자막정보 중에서 사전에 설정한 확률 이상으로 예측되는 자막정보만을 영상 편집자에게 제공하며,
    상기 영상 편집자에게 제공되는 자막정보는 확률이 가장 높은 순서대로 영상 편집자 단말에 표시하도록 하는 것을 특징으로 하는 머신러닝을 통한 자막추천 장치.
KR1020180025632A 2018-03-05 2018-03-05 머신러닝을 통한 자막추천 방법 및 그 장치 KR20190105287A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180025632A KR20190105287A (ko) 2018-03-05 2018-03-05 머신러닝을 통한 자막추천 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180025632A KR20190105287A (ko) 2018-03-05 2018-03-05 머신러닝을 통한 자막추천 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20190105287A true KR20190105287A (ko) 2019-09-17

Family

ID=68069989

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180025632A KR20190105287A (ko) 2018-03-05 2018-03-05 머신러닝을 통한 자막추천 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR20190105287A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102106738B1 (ko) * 2019-10-28 2020-05-04 이광선 서버에서의 동영상 자막생성을 위한 stt 변환방법
WO2022100093A1 (zh) * 2020-11-13 2022-05-19 深圳市前海手绘科技文化有限公司 一种视频字幕制作方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102106738B1 (ko) * 2019-10-28 2020-05-04 이광선 서버에서의 동영상 자막생성을 위한 stt 변환방법
WO2022100093A1 (zh) * 2020-11-13 2022-05-19 深圳市前海手绘科技文化有限公司 一种视频字幕制作方法

Similar Documents

Publication Publication Date Title
CN102378050B (zh) 使用文本转语音转换的广播系统
CN110364146B (zh) 语音识别方法、装置、语音识别设备及存储介质
KR101326897B1 (ko) 텔레비전 시퀀스를 제공하는 장치 및 방법
CN100559463C (zh) 声音识别用辞典编制装置和声音识别装置
CN110166816B (zh) 用于人工智能教育的基于语音识别的视频编辑方法和系统
CN110970014B (zh) 语音转换、文件生成、播音、语音处理方法、设备及介质
CN106941619A (zh) 基于人工智能的节目提醒方法、装置以及系统
US20130047059A1 (en) Transcript editor
US20060206526A1 (en) Video editing method and apparatus
CN102075695A (zh) 面向海量广播电视节目的新一代智能编目系统和方法
CN103988496A (zh) 用于从多个源创建合成视频的方法和装置
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
CN110691271A (zh) 一种新闻视频生成方法、系统、装置和存储介质
KR20190105287A (ko) 머신러닝을 통한 자막추천 방법 및 그 장치
JP2001022374A (ja) 電子番組ガイドの操作装置および電子番組ガイドの送信装置
CN113411674A (zh) 视频的播放控制方法、装置、电子设备及存储介质
JP2008145769A (ja) 対話シナリオ生成システム,その方法およびプログラム
CN106162254A (zh) 一种用户语音分析方法及系统
KR101867950B1 (ko) 생방송 및 영상서비스용 실시간 부가정보 표시 시스템
CN114866851B (zh) 基于ai图像的短视频创作方法、智能电视及存储介质
CN113242470B (zh) 一种应用于外贸营销的视频发布方法及装置
CN112261321B (zh) 字幕处理方法、装置及电子设备
JP2012005041A (ja) 端末装置、サーバ
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质
CN113407692A (zh) 基于iptv端的政务咨询方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application