KR101672123B1 - 편집본 동영상에 대한 자막파일을 생성하는 장치 및 방법 - Google Patents

편집본 동영상에 대한 자막파일을 생성하는 장치 및 방법 Download PDF

Info

Publication number
KR101672123B1
KR101672123B1 KR1020150029002A KR20150029002A KR101672123B1 KR 101672123 B1 KR101672123 B1 KR 101672123B1 KR 1020150029002 A KR1020150029002 A KR 1020150029002A KR 20150029002 A KR20150029002 A KR 20150029002A KR 101672123 B1 KR101672123 B1 KR 101672123B1
Authority
KR
South Korea
Prior art keywords
edited
section
original
file
audio
Prior art date
Application number
KR1020150029002A
Other languages
English (en)
Other versions
KR20160106302A (ko
Inventor
한성희
이재호
최대훈
하명환
정병희
이만규
최관수
김대진
Original Assignee
한국방송공사
주식회사 마크애니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국방송공사, 주식회사 마크애니 filed Critical 한국방송공사
Priority to KR1020150029002A priority Critical patent/KR101672123B1/ko
Publication of KR20160106302A publication Critical patent/KR20160106302A/ko
Application granted granted Critical
Publication of KR101672123B1 publication Critical patent/KR101672123B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4886Data services, e.g. news ticker for displaying a ticker, e.g. scrolling banner for news, stock exchange, weather data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

편집본 동영상에 대한 자막파일을 재구성하는 장치 및 방법에 관한 것으로서, 일실시예에 따른 자막 편집 장치는 원본 동영상과 편집본 동영상의 오디오 매칭을 수행하여 상기 원본 동영상과 상기 편집본 동영상 사이의 차이에 대응하는 편집 정보 데이터를 생성하는 생성부, 및 상기 편집 정보 데이터를 이용하여, 상기 원본 동영상에 동기된 원본 자막파일을 편집하여 상기 편집본 동영상에 동기되는 편집본 자막파일을 생성하는 처리부를 포함한다.

Description

편집본 동영상에 대한 자막파일을 생성하는 장치 및 방법{APPARATUS AND METHOD FOR GENERATING CAPTION FILE OF EDITED VIDEO}
원본 동영상에 대해 편집이 된 편집 본 동영상의 자막을 생성하는 기술에 연관되며, 보다 특정하게는 원본 동영상에 대응하는 원본 자막 파일을 동영상 편집에 맞추어 재구성하는 기술에 관한 것이다.
대부분의 중앙 지상파 프로그램에 제공되는 클로즈드 캡션(이하 자막)은, 고비용을 지불하여 전량 실시간 속기로 제작되고 있다. 청각 장애인용 자막뿐만 아니라 다양한 응용에서 자막의 활용이 증가하고 있는데, 이러한 속기 방식은 비용이 높다.
한편, 정규방송에 대응하는 재방송의 경우 정규방송에서 사용했던 자막 파일을 활용할 수 있는데, 정규방송이 편집되어 재방송되는 경우라면, 재방송을 위한 편집 자막을 수작업으로 다시 생성해야 한다. 즉, 상당 부분의 방송에 있어 인력을 통해 자막을 생성 또는 편집하는 실정이다.
기존의 공중파 채널에서도 재방송이 상당히 높은 비율(약 20% 내외)로 서비스될 뿐만 아니라, 재방송만을 위해 전문적으로 서비스하려는 방송국 및/또는 채널이 개국/신설될 예정인 점을 고려한다면 자막 파일을 자동적으로 편집할 수 있는 기술이 요구되고 있는 실정이다.
(특허문헌) 대한민국 특허공보 제10-1478918호
자막 파일을 보유하고 있는 원본 동영상이 편집되어 편집본 동영상이 생성되는 경우, 편집본 동영상에 맞는 자막을 자동으로 생성하는 것을 목적으로 한다. 또한, 편집본 자막을 생성에 있어서 정확도를 높이고 오류를 줄이는 것을 목적으로 한다.
일실시예에 따른 자막 편집 장치는 원본 동영상과 편집본 동영상의 오디오 매칭을 수행하여 상기 원본 동영상과 상기 편집본 동영상 사이의 차이에 대응하는 편집 정보 데이터를 생성하는 생성부, 및 상기 편집 정보 데이터를 이용하여, 상기 원본 동영상에 동기된 원본 자막파일을 편집하여 상기 편집본 동영상에 동기되는 편집본 자막파일을 생성하는 처리부를 포함한다.
일실시예에 따른 상기 생성부는, 상기 원본 동영상의 원본 오디오 파일에 대한 제1 특징 정보를 추출하고, 상기 편집본 동영상의 편집본 오디오 파일에 대한 제2 특징 정보를 추출하며, 상기 추출된 제1 특징 정보와 상기 제2 특징 정보를 매칭하여 상기 오디오 매칭을 수행한다.
일실시예에 따른 상기 생성부는, 상기 원본 동영상의 원본 오디오를 분리하고, 분리된 원본 오디오를 디코딩 후 리샘플링하며, 리샘플링 결과로부터 상기 제1 특징 정보를 추출하고, 상기 편집본 동영상의 편집본 오디오를 분리하고, 분리된 편집본 오디오를 디코딩 후 리샘플링하며, 리샘플링 결과로부터 상기 제2 특징 정보를 추출한다.
일실시예에 따른 상기 생성부는, 상기 원본 동영상의 원본 오디오 파일과 상기 편집본 동영상의 편집본 오디오 파일을 대비하여, 추가 구간 및 삭제 구간 중에서 적어도 하나를 검색함으로써 상기 원본 동영상과 상기 편집본 동영상 사이의 차이를 확인한다.
일실시예에 따른 상기 생성부는, 상기 편집본 오디오 파일에 대한 특징 정보를 이용하여, 원본 오디오 파일로부터의 삭제 구간을 검색한다.
일실시예에 따른 상기 특징 정보 중에서 제1 특징 정보 및 상기 제2 특징 정보는 상기 편집본 오디오 파일 내의 제1 구간과, 상기 제1 구간에서 윈도우 구간만큼 시프트된 제2 구간에 해당하는 특징 정보를 포함한다.
일실시예에 따른 상기 생성부는, 상기 원본 오디오 파일에 대한 특징 정보를 이용하여, 편집본 오디오 파일에서의 추가 구간을 검색한다.
일실시예에 따른 상기 특징 정보 중에서 제1 특징 정보 및 상기 제2 특징 정보는 상기 원본 오디오 파일 내의 제1 구간과, 상기 제1 구간에서 윈도우 구간만큼 시프트된 제2 구간에 해당하는 특징 정보를 포함한다.
일실시예에 따른 상기 생성부는, 상기 원본 동영상의 원본 오디오 파일과 상기 편집본 동영상의 편집본 오디오 파일 간 오디오 핑거 프린트를 기반으로 하여 상기 오디오 매칭을 수행한다.
일실시예에 따른 상기 생성된 편집 정보 데이터는 상기 원본 동영상의 원본 오디오 파일에서의 삭제 구간을 포함하고, 상기 처리부는, 원본 자막 파일에서 상기 삭제 구간에 해당하는 부분을 삭제하여 상기 편집본 자막파일을 생성한다.
일실시예에 따른 처리부는, 윈도우 구간의 크기를 고려하여, 상기 삭제 구간에서 오차 구간을 예측하고, 예측된 오차 구간을 보정한다.
일실시예에 따른 처리부는, 상기 오디오 매칭의 구간 중에서, 오류가 발생한 구간의 크기가 미리 지정된 임계값 이하인 경우, 상기 오류가 발생한 구간에 대한 특징 정보를 후보정한다.
일실시예에 따른 상기 생성된 편집 정보 데이터는 상기 편집본 동영상의 편집본 오디오 파일에서의 추가 구간을 포함하고, 상기 처리부는, 원본 자막 파일에서 상기 추가 구간에 해당하는 부분을 추가하여 상기 편집본 자막파일을 생성한다.
일실시예에 따른 자막 편집 방법은 생성부에서, 원본 동영상과 편집본 동영상의 오디오 매칭을 수행하여 상기 원본 동영상과 상기 편집본 동영상 사이의 차이에 대응하는 편집 정보 데이터를 생성하는 단계, 및 처리부에서, 상기 편집 정보 데이터를 이용하여, 상기 원본 동영상에 동기된 원본 자막파일을 편집하여 상기 편집본 동영상에 동기되는 편집본 자막파일을 생성하는 단계를 포함한다.
일실시예에 따른 상기 편집 정보 데이터를 생성하는 단계는, 상기 원본 동영상의 원본 오디오 파일에 대한 제1 특징 정보를 추출하는 단계, 상기 편집본 동영상의 편집본 오디오 파일에 대한 제2 특징 정보를 추출하는 단계, 및 상기 추출된 제1 특징 정보와 상기 제2 특징 정보를 매칭하여 상기 오디오 매칭을 수행하는 단계를 포함한다.
일실시예에 따른 상기 제1 특징 정보를 추출하는 단계는, 상기 원본 동영상의 원본 오디오를 분리하고, 분리된 원본 오디오를 디코딩 후 리샘플링하며, 리샘플링 결과로부터 상기 제1 특징 정보를 추출하는 단계를 포함하고, 상기 제2 특징 정보를 추출하는 단계는, 상기 편집본 동영상의 편집본 오디오를 분리하고, 분리된 편집본 오디오를 디코딩 후 리샘플링하며, 리샘플링 결과로부터 상기 제2 특징 정보를 추출하는 단계를 포함한다.
일실시예에 따른 상기 편집 정보 데이터를 생성하는 단계는, 상기 원본 동영상의 원본 오디오 파일과 상기 편집본 동영상의 편집본 오디오 파일을 대비하여, 추가 구간 및 삭제 구간 중에서 적어도 하나를 검색하는 단계, 및 상기 검색 결과를 이용하여, 상기 원본 동영상과 상기 편집본 동영상 사이의 차이를 확인하는 단계를 포함한다.
일실시예에 따른 상기 추가 구간 및 삭제 구간 중에서 적어도 하나를 검색하는 단계는, 상기 편집본 오디오 파일에 대한 특징 정보를 이용하여, 원본 오디오 파일로부터의 삭제 구간을 검색하는 단계, 및 상기 원본 오디오 파일에 대한 특징 정보를 이용하여, 편집본 오디오 파일에서의 추가 구간을 검색하는 단계를 포함한다.
일실시예에 따른 상기 편집본 자막파일을 생성하는 단계는, 원본 자막 파일에서, 상기 삭제 구간에 해당하는 부분을 삭제하여 상기 편집본 자막파일을 생성하는 단계를 포함한다.
일실시예에 따른 상기 원본 자막파일을 생성하는 단계는, 원본 자막 파일에서, 상기 추가 구간에 해당하는 부분을 추가하여 상기 편집본 자막파일을 생성한다.
실시예들에 따르면, 편집본 동영상에 대한 자막을 자동으로 재구성함으로써, 동영상 편집 외에 또다시 자막을 재구성하는 데에 들어가는 인적/물적 비용이나 시간을 줄일 수 있다. 또한, 편집본 자막을 알고리즘을 통해 재구성함으로써 자막 오류를 줄일 수 있다. 추후에 VOD(Video On Demand) 서비스가 더욱 보편화되고, 재방송 서비스가 증가하는 경우, 이러한 효과는 더욱 극대화 될 것이다.
도 1은 본 발명에 따른 전체 시스템을 설명하는 도면이다.
도 2는 일실시예에 따른 자막 편집 장치를 설명하는 도면이다.
도 3은 삭제 구간을 검색하는 실시예를 설명하는 도면이다.
도 4는 추가 구간을 검색하는 실시예를 설명하는 도면이다.
도 5a 및 5b는 편집본 자막 파일을 생성하기 위해 원본 자막 파일을 검색하는 실시예를 설명하는 도면이다.
도 6은 생성된 편집본 자막 파일을 후보정하는 실시예를 설명하는 도면이다.
도 7은 삭제 구간 중 삭제 시작 시간의 오차와 이를 보정하는 방법을 설명하는 도면이다.
도 8은 삭제 구간 중 삭제 종료 시점의 오차와 이를 보정하는 방법을 설명하는 도면이다.
도 9는 일실시예에 따른 자막 편집 방법을 설명하는 도면이다.
도 10은 오디오 매칭을 위해, 동영상 파일로부터 특징정보를 추출하는 방법을 설명하는 도면이다.
이하에서, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 이러한 실시예들에 의해 권리범위가 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
아래 설명에서 사용되는 용어는, 연관되는 기술 분야에서 일반적이고 보편적인 것으로 선택되었으나, 기술의 발달 및/또는 변화, 관례, 기술자의 선호 등에 따라 다른 용어가 있을 수 있다. 따라서, 아래 설명에서 사용되는 용어는 기술적 사상을 한정하는 것으로 이해되어서는 안 되며, 실시예들을 설명하기 위한 예시적 용어로 이해되어야 한다.
또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 설명 부분에서 상세한 그 의미를 기재할 것이다. 따라서 아래 설명에서 사용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가지는 의미와 명세서 전반에 걸친 내용을 토대로 이해되어야 한다.
도 1은 본 발명에 따른 전체 시스템(100)을 설명하는 도면이다.
전체 시스템(100)은 원본 자막파일이 있는 원본 동영상 파일로부터 편집본 동영상 파일에 매칭되는 편집본 자막파일을 자동으로 재구성 한다.
전체 시스템(100)은 원본 동영상과 편집 본 동영상의 오디오 매칭을 위해, 오디오 핑거 프린트(AFP, Audio Finger Printing)을 사용할 수 있다. AFP 기술은 오디오의 특징점을 추출하여 비교하는 방식으로 각 동영상으로부터 오디오를 분리하여 특징점을 추출하는데 이것을 DNA라고도 한다. 도 1에서는 오디오 매칭을 위해 AFP 기술로 설명하나, 다양한 오디오 매칭 기술로 대체될 수도 있다.
구체적으로, 전체 시스템(100) 중 오디오 DNA 전처리 서버(104)는 입력으로 원본 자막파일(101), 편집본 동영상 파일(102), 원본 동영상 파일(103)을 수집한다.
이에, 오디오 DNA 전처리 서버(104)는 편집본 동영상 파일(102) 및 원본 동영상 파일(103)에 대한 오디오 파일을 각각 추출하고, 추출된 오디오 파일을 분석하여, 오디오 핑거 프린트에 기반하는 DNA(특징정보)를 추출한다. 또한, 오디오 DNA 전처리 서버(104)는 추출된 DNA를 매칭하여 동영상에 대한 삭제 구간과, 추가 구간을 확인할 수 있다.
다음으로, 오디오 DNA 전처리 서버(104)는 확인된 삭제 구간 및 추가 구간을 고려하여, 원본 자막파일(101)을 재구성하여 편집본 자막파일을 생성할 수 있다.
도면부호 110은 원본 동영상에 대한 자막파일과 오디오 핑거 프린트를 나타낸다. 각각의 자막파일은 해당 재생 시간에서의 오디오 핑거 프린트에 연관된다. 한편, 도면부호 120은 원본 동영상의 오디오 핑거 프린트와 편집본 동영상의 오디오 핑거 프린트를 대비하는 실시예를 나타낸다. 즉, 원본 동영상의 오디오 핑거 프린트 1-7 항목 중에서 편집본 동영상의 오디오 핑거 프린트와 매칭이 불가능한 오디오 핑거 프린트는 5 항목이다.
따라서, 오디오 DNA 전처리 서버(104)는 원본 동영상 중 오디오 핑거 프린트 5 (0:1:20~0:1:40)항목에 해당하는 동영상의 부분이 삭제되었음을 확인할 수 있다.
이에, 오디오 DNA 전처리 서버(104)는 원본 동영상의 자막파일에서 오디오 핑거 프린트 5 (0:1:20~0:1:40)항목에 해당하는 부분의 자막을 삭제하는 재구성을 통해 편집본 자막파일(130)을 생성할 수 있다.
오디오 DNA 전처리 서버(104)에서 생성된 편집본 자막파일(130)은 파일기반 자막송출서버(105)를 통해 자막서버(106)로 전달될 수 있다. 이에, 자막서버(106)는 수신한 편집본 자막파일의 인코딩을 위해 자막인코더(107)를 통해 DTV 인코더(108)를 거쳐, 비디오 송출서버(109)의 제어를 통해 방송 요청할 수 있다.
도 1의 오디오 DNA 전처리 서버는 이하에서 설명하는 자막 편집 장치로 해석될 수 있다.
또한, 오디오 DNA 전처리 서버는 자막 동기화 진행 중 여러 정보를 소켓 통신(TCP)을 통해 다양한 서버와 통신할 수 있는데, 자막 동기화에 대해서는 구체적인 설명은 생략한다.
도 2는 일실시예에 따른 자막 편집 장치(200)를 설명하는 도면이다.
일실시예에 따른 자막 편집 장치(200)는 원본 동영상과 편집본 동영상의 오디오 매칭을 수행하여 원본 동영상과 편집본 동영상 사이의 차이에 대응하는 편집 정보 데이터를 생성하는 생성부(210)를 포함할 수 있다. 뿐만 아니라, 일실시예에 따른 자막 편집 장치(200)는 편집 정보 데이터를 이용하여, 원본 동영상에 동기된 원본 자막파일을 편집하여 편집본 동영상에 동기되는 편집본 자막파일을 생성하는 처리부(220)를 포함할 수 있다.
또한, 일실시예에 따른 생성부(210)는 오디오 매칭을 위해 원본 동영상의 원본 오디오 파일에 대한 제1 특징 정보를 추출하고, 편집본 동영상의 편집본 오디오 파일에 대한 제2 특징 정보를 추출한다.
제1 특징 정보와 제2 특징 정보는 오디오 핑거 프린팅에 의한 DNA를 포함할 수 있다. 일실시예에 따른 생성부(210)는 제1 특징 정보를 추출하기 위해서, 우선 원본 동영상 파일로부터 원본 오디오 파일을 분리할 수 있다. 또한, 분리된 원본 오디오 파일을 웨이브(Wave)의 형식으로 변환하기 위해 오디오 디코딩을 수행하고, 디코딩 결과를 리샘플링(resampling)하여 원본 오디오 파일의 DNA를 추출함으로써, 제1 특징 정보를 추출할 수 있다. 마찬가지로, 일실시예에 따른 생성부(210)는 제2 특징 정보를 추출하기 위해서, 편집본 동영상 파일로부터 편집본 오디오 파일을 분리하고, 분리된 원본 오디오 파일에 대해 오디오 디코딩을 수행하며, 디코딩 결과를 리샘플링(resampling)하여 편집본 오디오 파일의 DNA를 추출함으로써, 제2 특징 정보를 추출할 수 있다.
본 발명에서는 오디오의 특징을 구별하는 방법으로 오디오 핑거 프린트에 의한 DNA를 설명하였으나, 오디오의 특징을 식별할 수 있는 어떠한 기술도 적용이 가능하다.
다음으로, 일실시예에 따른 생성부(210)는 추출한 제1 특징 정보와 제2 특징 정보를 비교하여, 동영상에 대한 추가 구간과 삭제 구간을 검색할 수 있다.
추가 구간은 원본 동영상 파일의 윈도우 구간(예를 들어, 5sec)을 참고하여 편집본 동영상 파일로부터 검색할 수 있다. 구체적으로, 원본 동영상 파일에서 제1 윈도우 구간과 제1 윈도우 구간에서 미리 지정된 시간만큼 시프트된 제2 윈도우 구간에 대한 단위 특징 정보를 편집본 동영상 파일에서 확인하여 편집본 동영상 파일 중 동영상 파일(또는 음성 파일)이 추가된 구간을 검색할 수 있다.
한편, 삭제 구간은 편집본 동영상 파일의 윈도우 구간(예를 들어, 5sec)을 참고하여 원본 동영상 파일로부터 검색할 수 있다. 구체적으로, 편집본 동영상 파일에서 제1 윈도우 구간과 제1 윈도우 구간에서 미리 지정된 시간만큼 시프트된 제2 윈도우 구간에 대한 단위 특징 정보를 원본 동영상 파일에서 확인하여 원본 동영상 파일 중 삭제된 구간을 검색할 수 있다.
일실시예에 따른 생성부(210)는 원본 동영상의 특정 구간에 해당하는 오디오에 매칭되는 편집본 동영상의 구간이 복수개인 경우, 편집본 동영상의 복수개의 구간들 중에서 원본 동영상의 특정 구간에서 시간적으로 가장 인접한 구간을 매칭할 수 있다.
즉, 일실시예에 따른 생성부(210)는 오디오 매칭시 대응되는 오디오 신호가 많은 경우 원본 오디오에 편집본 오디오의 어느 부분을 매칭해야 하는 것인지 판단하기 어렵다. 즉, 생성부(210)는 원본 오디오 및 편집본 오디오의 DNA 매칭 유사도가 임계치 넘는 경우가 여러 개가 발생하는 경우에, 편집본 오디오의 구간들 중 원본 오디오의 대비 구간과 가장 가까운 구간을 선택하여 매칭할 수 있다.
처리부(220)는 삭제 구간과 추가 구간이 검색되면, 해당 구간에 대한 원본 동영상 파일의 제1 특징 정보를 확인하고, 확인된 특징 정보에 상응하는 부분을 원본 자막파일에서 편집할 수 있다. 만약, 삭제 구간만 존재 하였다면, 확인된 특징 정보에 상응하는 부분을 원본 자막파일에서 삭제하는 재구성을 통해 편집본 자막 파일을 생성하고, 추가 구간이 존재 하였다면, 확인된 특징 정보에 상응하는 부분을 원본 자막파일에서 추가하는 재구성을 통해 편집본 자막 파일을 생성할 수 있다.
추가되는 부분에 대한 자막파일이 필요한 경우, 처리부(220)는 외부 서버로부터 전달된 추가 자막파일을 원본 자막파일에 추가하거나, 외부 서버로 추가 자막파일에 대한 요청을 할 수 있다.
일실시예에 따른 자막 편집 장치(200)는 결정부(미도시)를 더 포함할 수 있다.
처리부(220)는 편집본 자막 파일과 함께, 영상의 편집 정보를 나타내는 편집 정보 데이터를 출력할 수 있다. 편집 정보 데이터는 편집본 동영상 파일에 대한 추가 구간에 대한 정보나 원본 동영상 파일에 대한 삭제 구간에 대한 정보를 포함하고 있다. 즉, 처리부(220)는 편집본 자막 파일과 함께, 추가 구간(예, 추가구간 1) 00:10:12~00:10:35, 추가구간 2) 00:20:01~00:25:10) 또는 삭제 구간(예, 삭제구간 1) 00:35:10~00:45:20)에 대한 정보를 출력할 수 있다.
결정부는, 추가 구간 또는 삭제 구간에 대한 정보를 확인하고, 편집본 자막 파일을 사용할지 여부를 결정할 수 있다.
구체적으로, 삭제 구간은 통상 자막과 영상이 함께 삭제되니까 문제되지 않는데 추가 구간에서는 자막이 비어 있을 수 있다. 즉, 결정부는 이 추가 구간에 따라 자막을 송출할지 말지 결정할 수 있다.
일례로, 결정부는 사전에 설정된 추가 구간의 안전지대(예를 들어, 앞쪽 전타이틀 및 광고 영역, 뒤쪽 예고 및 후타이틀 영역)에 영상이 추가된 경우에는 수정된 자막 파일을 사용하도록 결정한다. 한편, 결정부는 추가 구간이 임계 설정시간 값
Figure 112015020312424-pat00001
를 넘게 되면 편집한 자막 파일이 방송 불가하다고 판정하여, 송출을 하지 않도록 결정할 수 있다. 오디오 매칭시 오디오가 유사한 다른 회차가 매핑될 수 있는데, 이 경우 추가된 부분이 대부분으로 나오기 때문에 결정부의 판단에 따라 방송 불가 판정으로 필터링된다.
일례로, 결정부(미도시)는 파일기반 자막송출 서버를 구성하는 구성요소에서 동작할 수도 있다.
도 3은 삭제 구간을 검색하는 실시예를 설명하는 도면이다.
삭제 구간을 검색하기 위해서는, 편집본 동영상의 윈도우 구간들을 데이터베이스로 등록하고, 등록된 편집본 동영상의 윈도우 구간들을 일정 시간(예를 들어, 500msec) 시프트 하여 원본 동영상을 검색할 수 있다.
즉, 일실시예에 따른 자막 편집 장치는 원본 동영상(310)에 대해 편집본 동영상으로부터 추출된 윈도우 구간(320)을 비교하여 대응 여부를 판단할 수 있다. 또한, 추출된 윈도우 구간(320)에서 500msec 시프트된 윈도우 구간(330)을 다시 원본 동영상(310)의 해당 부분과 비교하여 대응 여부를 판단할 수 있다.
이렇게 원본 동영상(310)에 대해 편집본 동영상으로부터의 윈도우 구간들을 순차적으로 대비함으로써, 원본 동영상(310)의 어느 부분이 삭제되었는지 확인할 수 있다.
도 4는 추가 구간을 검색하는 실시예를 설명하는 도면이다.
추가 구간을 검색하기 위해서는, 원본 동영상의 윈도우 구간들을 데이터베이스로 등록하고, 등록된 원본 동영상의 윈도우 구간들을 일정 시간(예를 들어, 500msec) 시프트 하여 편집본 동영상을 검색할 수 있다.
즉, 일실시예에 따른 자막 편집 장치는 편집본 동영상(310)에 대해 원본 동영상으로부터 추출된 윈도우 구간(320)을 비교하여 대응 여부를 판단할 수 있다. 또한, 추출된 윈도우 구간(320)에서 500msec 시프트된 윈도우 구간(330)을 다시 편집본 동영상(310)의 해당 부분과 비교하여 대응 여부를 판단할 수 있다.
이렇게 편집동영상(310)에 대해 원본 동영상으로부터의 윈도우 구간들을 순차적으로 대비함으로써, 편집본 동영상(310)의 어느 부분이 추가된 것인지 확인할 수 있다.
도 5a 및 5b는 편집본 자막 파일을 생성하기 위해 원본 자막 파일을 검색하는 실시예를 설명하는 도면이다.
도 5a는 원본 동영상에 대한 원본 자막파일(500)에 대한 구체적인 예를 나타내고, 도 5b는 원본 자막파일(510)의 시작 싱크 위치들(520, 530, 540, 550, 560, 570)을 나타낸다. 원본 자막파일(500)은 자막 내용과 함께 싱크 시작 정보를 포함한다.
예를 들어, 싱크 시작 정보가 '32240'에 해당하는 시작 싱크 위치는 도 5b의 도면부호 520에 해당한다.
일실시예에 따른 자막 편집 장치는 편집본 자막 파일을 생성하기 위해 원본 자막파일(500)의 시작 싱크 위치들(520~570)을 검색할 수 있다.
일실시예에 따른 자막 편집 장치는 편집 본 DNA를 데이터베이스로 등록하고 원본 자막파일(510)에 대한 시작 싱크 위치들(520~570)로 검색한다.
즉, 일실시예에 따른 자막 편집 장치는 원본 자막파일(500)에서 시작 싱크 위치들을 msec 단위로 그 위치에서 5초 분량의 DNA를 등록된 데이터베이스로부터 검색한다. 도 5b에서는 DNA를 비교할 시작 위치로서 원본 자막파일(510)에 대한 시작 싱크 위치들(520~570)을 나타낸다.
도 6은 생성된 편집본 자막 파일을 후보정하는 실시예를 설명하는 도면이다.
일실시예에 따른 자막 편집 장치는 오디오 파일에 대한 특징정보를 추출하는 과정에서 예상치 못한 노이즈 등으로 인해 특징정보를 추출하지 못하는 경우가 발생할 수도 있다. 이 경우에도, 일실시예에 따른 자막 편집 장치는 편집본 오디오 또는 편집본 동영상에 대한 특징정보를 후보정하여 매칭에 이용할 수 있다.
오디오 핑거 프린트에 기반하여 설명하면, 묵음 즉 오디오 레벨이 없거나 잡음이 매우 심한 경우 오디오 핑거 프린트 기술로 원본 동영상 또는 편집본 동영상에 대한 DNA를 추출할 수 없다.
도면부호 600을 살펴보면, 편집본 시간이 '-1'로 측정된 구간에 대해서는 원본 자막파일의 검색 과정 중, 예상치 못한 오류로 인해 DNA가 검색되지 않았음을 의미한다. 이 때, 검색되지 않은 위치에 대해서는 편집본 인덱스를 측정할 수 없어야 한다.
그러나, 예상치 못한 오류로 인해 DNA가 검색되지 않은 부분, 예를 들어 편집본 시간이 '-1'로 측정된 부분이 미리 지정된 기준 시간 보다 짧은 경우에 대해서 일실시예에 따른 자막 편집 장치는 해당 부분을 계산하여 채울 수 있다.
구체적으로, 일실시예에 따른 자막 편집 장치는 편집본 시간이 측정된 부분에 해당하는 편집본 인덱스(610)와 편집본 시간이 '-1'로 측정되다 최초로 유의미한 데이터가 측정되는 부분(630)의 시간차를 확인할 수 있다.
일실시예에 따른 자막 편집 장치는 편집본 인덱스(610)에 해당하는 편집본 시간과 편집본 인덱스(630)에 해당하는 편집본 시간이 미리 지정된 기준 시간(예를 들어, 16msec)인 경우 오차 범위 내라고 판단하고, 오류가 발생한 구간에 대한 편집본 인덱스(620)를 계산할 수 있다.
예를 들어, 일실시예에 따른 자막 편집 장치는 편집본 인덱스(610)와 편집본 인덱스(630)의 데이터를 확인하고, 두 데이터를 각 편집본 시간대에 부합되도록 보간하여 편집본 인덱스(630)를 계산할 수 있다. 서로 다른 두 편집본 인덱스들의 사이 값을 계산하는 방법은 다양한 알고리즘을 활용할 수 있다.
도 7은 삭제 구간 중 삭제 시작 시간의 오차와 이를 보정하는 방법을 설명하는 도면이다.
원본 동영상(710)에서의 실제 삭제구간은, 원본 동영상(710)에 대비되는 편집본 동영상의 윈도우 구간 크기에 따라서 오차가 발생할 수 있다.
도 7에서 보는 바와 같이, 윈도우 구간의 크기가 5sec(한 블록에 0.5sec)이고, 윈도우 구간이 3sec 이상 상응하는 경우 대응 기준이 설정된 경우라면, 윈도우 구간(720)에 해당하는 매칭에서부터 편집본 동영상의 윈도우 구간이 원본 동영상(710)에서 검색되지 않게 된다. 다시 말해, 윈도우 구간(720)에서는 실제 원본 동영상의 삭제 구간과 편집본 동영상의 윈도우 구간이 2.5sec(5블록x0.5sec)만큼 오버랩되기 때문에, 일실시예에 따른 자막 편집 장치는 매칭 중인 윈도우 구간(720) 중 2.5sec만큼의 차이가 발생한 것으로 판단한다. 즉, 윈도우 구간이 3sec 이상 상응하지 않기 때문에, 해당 윈도우 구간에 대한 삭제라고 판단할 수 있다.
또한, 일정 시간 시프트된 후 원본 데이터와 대비되는 윈도우 구간(730)의 경우에도 3sec만큼 차이가 발생한 것으로 판단할 수 있다.
즉, 오디오 핑거 프린트 기술을 이용하면, 원본 동영상의 실제 삭제 구간 보다 앞선 구간이 삭제 시작 시점(740)으로 계산됨으로써, 삭제 시작 시점(740)에 오차가 발생할 수 있다.
이에, 일실시예에 따른 자막 편집 장치는 윈도우 구간의 크기를 고려하여, 오차 구간을 예측하고, 예측된 오차 구간을 보정할 수 있다. 즉, 일실시예에 따른 자막 편집 장치는 삭제 시작 시점(740)으로 확인된 부분에서 사전에 설정했던 기준, 예를 들어 5sec 크기의 윈도우 구간 중 2sec 이상이 차이 나면 매칭이 안되는 것으로 판단하는 기준을 고려하여, 삭제 시작 시점(740)의 3sec 후가 원본 동영상(710)의 실제 삭제 구간이 시작되는 위치임을 확인할 수 있다.
또한, 일실시예에 따른 자막 편집 장치는 확인된 삭제 시작 시점(740)을 고려하여 삭제 구간을 계산할 수 있다.
도 8은 삭제 구간 중 삭제 종료 시점의 오차와 이를 보정하는 방법을 설명하는 도면이다.
원본 동영상(810)에서의 실제 삭제구간은, 원본 동영상(810)에 대비되는 편집본 동영상의 윈도우 구간 크기에 따라서 오차가 발생할 수 있다.
도 8에서 보는 바와 같이, 윈도우 구간의 크기가 5sec(한 블록에 0.5sec)이고, 윈도우 구간이 3sec 이상 상응하는 경우 대응 기준이 설정된 경우라면, 윈도우 구간(820)에 해당하는 매칭까지 편집본 동영상의 윈도우 구간이 원본 동영상(810)에서 검색되지 않게 된다.
다시 말해, 윈도우 구간(820)에서는 실제 원본 동영상의 삭제 구간과 편집본 동영상의 윈도우 구간이 2.5sec(5블록x0.5sec)만큼 오버랩되기 때문에, 일실시예에 따른 자막 편집 장치는 매칭 중인 윈도우 구간(720) 중 2.5sec만큼의 차이가 발생한 것으로 판단한다. 즉, 윈도우 구간이 3sec 이상 상응하지 않기 때문에, 해당 윈도우 구간에 대한 삭제라고 판단할 수 있다.
또한, 일정 시간 시프트된 후 원본 데이터와 대비되는 윈도우 구간(830)의 경우에도 3sec만큼 매칭되는 것으로 판단할 수 있다. 따라서, 오디오 핑거 프린트 기술을 이용하면, 원본 동영상의 실제 삭제 구간 보다 앞선 구간이 삭제 종료 시점(840)으로 계산됨으로써, 삭제 종료 시점(840)에 오차가 발생할 수 있다.
이 경우, 일실시예에 따른 자막 편집 장치는 윈도우 구간의 크기를 고려하여, 오차 구간을 예측하고, 예측된 오차 구간을 보정할 수 있다. 즉, 일실시예에 따른 자막 편집 장치는 삭제 종료 시점(840)으로 확인된 부분에서 사전에 설정했던 기준, 예를 들어 5sec 크기의 윈도우 구간 중 2sec 이상이 차이 나면 매칭이 안되는 것으로 판단하는 기준을 고려하여, 삭제 종료 시점(840)의 3sec 후가 원본 동영상(810)의 실제 삭제 구간이 종료되는 위치임을 확인할 수 있다.
또한, 일실시예에 따른 자막 편집 장치는 확인된 삭제 종료 시점(840)을 고려하여 삭제 구간을 계산할 수 있다.
일실시예에 따른 자막 편집 장치는 이렇게 보정된 삭제 시작 시점(740)과 삭제 종료 시점(840)을 참고하여 편집본 자막파일을 재구성할 수 있다.
도 9는 일실시예에 따른 자막 편집 방법을 설명하는 도면이다.
일실시예에 따른 자막 편집 장치의 동작 방법은 원본 동영상, 편집본 동영상, 원본 자막파일을 수집하고(단계 901), 수집된 원본 동영상과 편집본 동영상의 오디오 매칭을 수행한다(단계 902). 일실시예 따른 자막 편집 장치의 동작 방법은 오디오 핑거 프린트 기술을 이용하여 원본 동영상과 편집본 동영상의 오디오 매칭을 수행할 수 있다.
다음으로, 일실시예에 따른 자막 편집 장치의 동작 방법은 오디오 매칭 결과에 따라, 편집 정보 데이터를 생성한다(단계 903). 편집 정보 데이터는 원본 동영상에서의 삭제 구간, 편집본 동영상에서의 추가 구간에 대한 정보를 포함할 수 있다. 이 과정에서, 자막 편집 장치의 동작 방법은 삭제 구간 및 추가 구간에 대한 보정을 수행할 수 있고, 예측 불가의 원인으로 인해 확인이 어려운 구간에 대한 특징정보를 계산하는 등의 보정을 수행할 수 있다.
일실시예에 따른 자막 편집 장치의 동작 방법은 편집 정보 데이터를 생성하기 위해, 원본 동영상의 원본 오디오 파일과 편집본 동영상의 편집본 오디오 파일을 대비할 수 있다. 이 결과, 추가 구간 및 삭제 구간 중에서 적어도 하나를 검색하고, 검색 결과를 이용하여 원본 동영상과 편집본 동영상 사이의 차이를 확인할 수 있다.
또한, 일실시예에 따른 자막 편집 장치의 동작 방법은 추가 구간 또는 삭제 구간을 검색하기 위해, 편집본 오디오 파일에 대한 특징 정보를 이용하여, 원본 오디오 파일로부터의 삭제 구간을 검색할 수 있다. 이 결과, 일실시예에 따른 자막 편집 장치의 동작 방법은 원본 오디오 파일에 대한 특징 정보를 이용하여, 편집본 오디오 파일에서의 추가 구간을 검색할 수 있다.
다음으로, 일실시예에 따른 자막 편집 장치의 동작 방법은 생성된 편집 정보 데이터 기초하여 수집된 원본 자막파일로부터 편집본 자막파일을 생성할 수 있다(단계 904).
일실시예에 따른 자막 편집 장치의 동작 방법은 편집본 자막파일을 생성하기 위해, 원본 자막 파일에서 삭제 구간에 해당하는 부분을 삭제하여 편집본 자막파일을 생성하거나, 원본 자막 파일에서 추가 구간에 해당하는 부분을 추가하여 편집본 자막파일을 생성할 수 있다.
도 10은 오디오 매칭을 위해, 동영상 파일로부터 특징정보를 추출하는 방법을 설명하는 도면이다.
일실시예에 따른 자막 편집 장치의 동작 방법은 특징정보를 추출하기 위해, 동영상으로부터 오디오를 분리하고(단계 1001), 분리된 오디오를 디코딩하며(단계 1002), 디코딩 결과를 리샘플링(단계 1003)하여, 특징정보를 추출할 수 있다(단계 1004).
일실시예에 따른 자막 편집 장치의 동작 방법은 원본 동영상의 원본 오디오 파일에 대한 제1 특징 정보를 추출할 수 있다. 구체적으로, 원본 동영상 파일로부터 분리된 원본 오디오 파일을 웨이브 포맷으로 디코딩 후 리샘플링하며, 리샘플링 결과로부터 제1 특징 정보를 추출할 수 있다.
또한, 일실시예에 따른 자막 편집 장치의 동작 방법은 편지본 동영상의 편집본 오디오 파일에 대한 제2 특징 정보를 추출할 수 있다. 구체적으로, 편집본 동영상의 편집본 오디오 파일에 대한 제2 특징 정보를 추출할 수 있다.
일실시예에 따른 자막 편집 장치의 동작 방법은 제1 특징 정보 및 제2 특징 정보의 추출 과정에서 발생하는 오류를 후보정할 수 있다. 예를 들어, 오디오 파일에 대한 특징정보를 추출하는 과정에서 예상치 못한 노이즈 등으로 인해 특징정보를 추출하지 못하는 경우가 발생할 수도 있는데, 일실시예에 따른 자막 편집 장치의 동작 방법은 오류가 발생한 구간이 미리 지정된 기준보다 짧은 구간인 경우라면 해당 구간에 대해 보간 등의 기술을 적용하여 후보정할 수 있다.
일실시예에 따른 자막 편집 장치의 동작 방법은 이렇게 추출된 제1 특징 정보와 제2 특징 정보를 매칭하여 오디오 매칭을 수행할 수 있다.
결국, 편집본 동영상에 대한 자막을 자동으로 재구성함으로써, 편집본 동영상의 자막 생성에 필요한 비용이나 시간을 줄일 수 있고, 편집본 자막을 알고리즘을 통해 재구성함으로써 자막 오류를 줄일 수 있다.
본 발명의 일실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (23)

  1. 원본 동영상의 원본 오디오 파일과, 편집본 동영상의 편집본 오디오 파일을 대비하는 오디오 매칭을 수행하여, 추가 구간 및 삭제 구간 중에서 적어도 하나를 검색함으로써 상기 원본 동영상과 상기 편집본 동영상 사이의 차이를 확인하고, 상기 원본 동영상과 상기 편집본 동영상 사이의 차이에 대응하는 편집 정보 데이터를 생성하는 생성부;
    상기 편집 정보 데이터를 이용하여, 상기 원본 동영상에 동기된 원본 자막파일을 편집하여 상기 편집본 동영상에 동기되는 편집본 자막파일을 생성하는 처리부; 및
    상기 편집 정보 데이터가 상기 추가 구간과 관련하여 생성되는 경우, 상기 편집본 자막파일의 사용 여부를 결정하는 결정부
    를 포함하고,
    상기 결정부는,
    사전에 설정된 안전지대에 영상이 추가되어 상기 추가 구간이 검색되면, 상기 편집본 자막파일에 대해 사용을 결정하고,
    상기 추가 구간이 갖는 시간이, 임계 설정시간 값을 넘게 되면, 상기 편집본 자막파일에 대해 사용 불가를 결정하는 자막 편집 장치.
  2. 제1항에 있어서,
    상기 생성부는,
    상기 원본 동영상의 원본 오디오 파일에 대한 제1 특징 정보를 추출하고, 상기 편집본 동영상의 편집본 오디오 파일에 대한 제2 특징 정보를 추출하며, 상기 제1 특징 정보와 상기 제2 특징 정보를 매칭하여 상기 오디오 매칭을 수행하는 자막 편집 장치.
  3. 제2항에 있어서,
    상기 생성부는,
    상기 원본 동영상의 원본 오디오를 분리하고, 분리된 원본 오디오를 디코딩 후 리샘플링하며, 리샘플링 결과로부터 상기 제1 특징 정보를 추출하고,
    상기 편집본 동영상의 편집본 오디오를 분리하고, 분리된 편집본 오디오를 디코딩 후 리샘플링하며, 리샘플링 결과로부터 상기 제2 특징 정보를 추출하는 자막 편집 장치.
  4. 삭제
  5. 제1항에 있어서,
    상기 생성부는,
    상기 편집본 오디오 파일에 대한 특징 정보를 이용하여, 상기 원본 오디오 파일로부터의 상기 삭제 구간을 검색하는 자막 편집 장치.
  6. 제2항에 있어서,
    상기 제2 특징 정보는,
    상기 편집본 오디오 파일 내의 제1 구간과, 상기 제1 구간에서 윈도우 구간만큼 시프트된 제2 구간에 해당하는 특징 정보를 포함하는 자막 편집 장치.
  7. 제1항에 있어서,
    상기 생성부는,
    상기 원본 오디오 파일에 대한 특징 정보를 이용하여, 상기 편집본 오디오 파일에서의 상기 추가 구간을 검색하는 자막 편집 장치.
  8. 제2항에 있어서,
    상기 제1 특징 정보는,
    상기 원본 오디오 파일 내의 제1 구간과, 상기 제1 구간에서 윈도우 구간만큼 시프트된 제2 구간에 해당하는 특징 정보를 포함하는 자막 편집 장치.
  9. 제1항에 있어서,
    상기 생성부는,
    상기 원본 동영상의 원본 오디오 파일과 상기 편집본 동영상의 편집본 오디오 파일 간 오디오 핑거 프린팅을 기반으로 하여 상기 오디오 매칭을 수행하는 자막 편집 장치.
  10. 제1항에 있어서,
    상기 편집 정보 데이터가 상기 삭제 구간과 관련하여 생성되는 경우,
    상기 처리부는,
    상기 원본 자막파일에서 상기 삭제 구간에 해당하는 부분을 삭제하여 상기 편집본 자막파일을 생성하는 자막 편집 장치.
  11. 제10항에 있어서,
    상기 처리부는,
    윈도우 구간의 크기를 고려하여, 상기 삭제 구간에서 오차 구간을 예측하고, 예측된 오차 구간을 보정하는 자막 편집 장치.
  12. 제1항에 있어서,
    상기 처리부는,
    상기 오디오 매칭의 구간 중에서, 오류가 발생한 구간의 크기가 미리 지정된 임계값 이하인 경우, 상기 오류가 발생한 구간에 대한 특징 정보를 후보정하는 자막 편집 장치.
  13. 제1항에 있어서,
    상기 편집 정보 데이터가 상기 추가 구간과 관련하여 생성되는 경우,
    상기 처리부는,
    상기 원본 자막파일에서 상기 추가 구간에 해당하는 부분을 추가하여 상기 편집본 자막파일을 생성하는 자막 편집 장치.
  14. 삭제
  15. 제1항에 있어서,
    상기 생성부는,
    상기 원본 동영상의 특정 구간에 해당하는 오디오에 매칭되는 상기 편집본 동영상의 구간이 복수개인 경우, 상기 편집본 동영상의 복수개의 구간들 중에서 상기 특정 구간에서 시간적으로 가장 인접한 구간을 매칭하는 자막 편집 장치.
  16. 생성부에서, 원본 동영상의 원본 오디오 파일과, 편집본 동영상의 편집본 오디오 파일을 대비하는 오디오 매칭을 수행하여, 추가 구간 및 삭제 구간 중에서 적어도 하나를 검색하는 단계;
    상기 생성부에서, 상기 검색 결과를 이용하여, 상기 원본 동영상과 상기 편집본 동영상 사이의 차이를 확인하고, 상기 원본 동영상과 상기 편집본 동영상 사이의 차이에 대응하는 편집 정보 데이터를 생성하는 단계;
    처리부에서, 상기 편집 정보 데이터를 이용하여, 상기 원본 동영상에 동기된 원본 자막파일을 편집하여 상기 편집본 동영상에 동기되는 편집본 자막파일을 생성하는 단계;
    결정부에서, 상기 편집 정보 데이터가 상기 추가 구간과 관련하여 생성되는 경우, 상기 편집본 자막파일의 사용 여부를 결정하는 단계
    를 포함하고,
    상기 결정하는 단계는,
    사전에 설정된 안전지대에 영상이 추가되어 상기 추가 구간이 검색되면, 상기 편집본 자막파일에 대해 사용을 결정하는 단계; 및
    상기 추가 구간이 갖는 시간이, 임계 설정시간 값을 넘게 되면, 상기 편집본 자막파일에 대해 사용 불가를 결정하는 단계
    를 포함하는 자막 편집 방법.
  17. 제16항에 있어서,
    상기 편집 정보 데이터를 생성하는 단계는,
    상기 원본 동영상의 원본 오디오 파일에 대한 제1 특징 정보를 추출하는 단계;
    상기 편집본 동영상의 편집본 오디오 파일에 대한 제2 특징 정보를 추출하는 단계; 및
    상기 제1 특징 정보와 상기 제2 특징 정보를 매칭하여 상기 오디오 매칭을 수행하는 단계
    를 포함하는 자막 편집 방법.
  18. 제17항에 있어서,
    상기 제1 특징 정보를 추출하는 단계는,
    상기 원본 동영상의 원본 오디오를 분리하고, 분리된 원본 오디오를 디코딩 후 리샘플링하며, 리샘플링 결과로부터 상기 제1 특징 정보를 추출하는 단계
    를 포함하고,
    상기 제2 특징 정보를 추출하는 단계는,
    상기 편집본 동영상의 편집본 오디오를 분리하고, 분리된 편집본 오디오를 디코딩 후 리샘플링하며, 리샘플링 결과로부터 상기 제2 특징 정보를 추출하는 단계
    를 포함하는 자막 편집 방법.
  19. 삭제
  20. 제16항에 있어서,
    상기 추가 구간 및 삭제 구간 중에서 적어도 하나를 검색하는 단계는,
    상기 편집본 오디오 파일에 대한 특징 정보를 이용하여, 상기 원본 오디오 파일로부터의 상기 삭제 구간을 검색하는 단계; 및
    상기 원본 오디오 파일에 대한 특징 정보를 이용하여, 상기 편집본 오디오 파일에서의 상기 추가 구간을 검색하는 단계
    를 포함하는 자막 편집 방법.
  21. 제16항에 있어서,
    상기 편집 정보 데이터가 상기 삭제 구간과 관련하여 생성되는 경우,
    상기 편집본 자막파일을 생성하는 단계는,
    상기 원본 자막파일에서, 상기 삭제 구간에 해당하는 부분을 삭제하여 상기 편집본 자막파일을 생성하는 단계
    를 포함하는 자막 편집 방법.
  22. 제16항에 있어서,
    상기 편집 정보 데이터가 상기 추가 구간과 관련하여 생성되는 경우,
    상기 원본 자막파일을 생성하는 단계는,
    상기 원본 자막파일에서, 상기 추가 구간에 해당하는 부분을 추가하여 상기 편집본 자막파일을 생성하는 자막 편집 방법.
  23. 삭제
KR1020150029002A 2015-03-02 2015-03-02 편집본 동영상에 대한 자막파일을 생성하는 장치 및 방법 KR101672123B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150029002A KR101672123B1 (ko) 2015-03-02 2015-03-02 편집본 동영상에 대한 자막파일을 생성하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150029002A KR101672123B1 (ko) 2015-03-02 2015-03-02 편집본 동영상에 대한 자막파일을 생성하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160106302A KR20160106302A (ko) 2016-09-12
KR101672123B1 true KR101672123B1 (ko) 2016-11-03

Family

ID=56950161

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150029002A KR101672123B1 (ko) 2015-03-02 2015-03-02 편집본 동영상에 대한 자막파일을 생성하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101672123B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102055766B1 (ko) * 2017-11-23 2019-12-13 주식회사 플레인베이글 동영상 요약 정보 재생 장치, 동영상 요약 정보 제공 서버 및 그 방법
KR102010236B1 (ko) * 2017-11-28 2019-08-14 주식회사 트라이웍스 동영상 비교 방법 및 이를 이용한 동영상 비교 시스템
CN113422996B (zh) * 2021-05-10 2023-01-20 北京达佳互联信息技术有限公司 字幕信息编辑方法、装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100893123B1 (ko) * 2007-05-07 2009-04-10 (주)엔써즈 오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를이용한 오디오 데이터 비교 방법 및 장치
KR100957244B1 (ko) * 2008-02-20 2010-05-11 (주)아이유노글로벌 자막 데이터의 동기화를 이용한 편집된 영상물의 자막 처리방법
KR20100014031A (ko) * 2008-08-01 2010-02-10 어뉴텍코리아 주식회사 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히추출하여 u-컨텐츠 만드는 장치 및 그 방법
KR20140137219A (ko) * 2013-05-22 2014-12-02 박청정 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하거나 저장하여 s,e,u-컨텐츠를 만드는 장치 및 그 방법 또는 요점 추출 저장
KR101478918B1 (ko) 2013-08-16 2014-12-31 한국방송공사 캡션 자막 보정 장치 및 캡션 자막 보정 방법

Also Published As

Publication number Publication date
KR20160106302A (ko) 2016-09-12

Similar Documents

Publication Publication Date Title
US8281231B2 (en) Timeline alignment for closed-caption text using speech recognition transcripts
US8060609B2 (en) Systems and methods for determining attributes of media items accessed via a personal media broadcaster
US8620466B2 (en) Method for determining a point in time within an audio signal
US20120039582A1 (en) Verification and synchronization of files obtained separately from a video content
JP2006155384A (ja) 映像コメント入力・表示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
US20140013352A1 (en) Methods and systems for providing broadcast ad identification
US20060059510A1 (en) System and method for embedding scene change information in a video bitstream
US20050264703A1 (en) Moving image processing apparatus and method
KR101672123B1 (ko) 편집본 동영상에 대한 자막파일을 생성하는 장치 및 방법
US8564721B1 (en) Timeline alignment and coordination for closed-caption text using speech recognition transcripts
WO2019128724A1 (zh) 数据处理方法及装置
US9507860B1 (en) Systems, methods, and media for identifying content
CN112954434A (zh) 字幕处理方法、系统、电子设备和存储介质
KR20170067546A (ko) 오디오 신호 및 비디오 신호의 동기화 시스템 및 그 방법
US20220189174A1 (en) A method and system for matching clips with videos via media analysis
KR101537665B1 (ko) 콘텐츠 재생 방법 및 장치
EP3839953A1 (en) Automatic caption synchronization and positioning
KR101981924B1 (ko) 미디어 콘텐츠 식별 방법
US9020817B2 (en) Using speech to text for detecting commercials and aligning edited episodes with transcripts
US9866788B2 (en) Digital content conversion quality control system and method
US10178415B2 (en) Chapter detection in multimedia streams via alignment of multiple airings
JP2006270233A (ja) 信号処理方法及び信号記録再生装置
KR101930488B1 (ko) 연동형 서비스 제공을 위한 메타데이터 생성 방법 및 그를 위한 장치
KR102005034B1 (ko) 영상 기반의 객체 정보 획득 방법 및 장치
Hughes et al. Automatic retrieval of closed captions for web clips from broadcast TV content

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 4