KR20190129266A

KR20190129266A - 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법

Info

Publication number: KR20190129266A
Application number: KR1020180053643A
Authority: KR
Inventors: 최병규; 김준오; 박송현; 서찬수; 손한나; 이상윤; 이성현; 정택주; 최유환; 황효원; 윤준; 고찬혁
Original assignee: 네이버 주식회사
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2019-11-20
Also published as: US20190349641A1; JP6745381B2; US11350178B2; KR102085908B1; JP2019198074A

Abstract

본 발명은 장면메타정보 생성 장치에 관한 것으로, 영상 컨텐츠와 관련된 자막 파일을 기반으로 복수의 단위 자막들을 검출하고, 상기 복수의 단위 자막들을 보정하는 자막정보 생성부; 상기 영상 컨텐츠로부터 오디오 정보를 추출하고, 상기 오디오 정보를 기반으로 복수의 음성 구간들을 검출하며, 각 음성 구간 내의 오디오 정보에 대해 음성 인식을 수행하는 오디오정보 생성부; 및 각 음성 구간에 대응하는 비디오 구간을 검출하고, 상기 비디오 구간 내의 영상 프레임들에 대해 영상 인식을 수행하며, 상기 영상 프레임들 중에서 대표 이미지를 선택하는 이미지정보 생성부를 포함한다.

Description

컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법{CONTENT PROVIDING SERVER, CONTENT PROVIDING TERMINAL AND CONTENT PROVIDING METHOD}

본 발명은 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법에 관한 것으로서, 보다 구체적으로는 영상 컨텐츠로부터 추출된 오디오 정보를 이용하여 재생 구간별 장면메타정보를 생성하는 컨텐츠 제공 서버 및 컨텐츠 제공 단말 및 컨텐츠 제공 방법에 관한 것이다.

정보 통신 기술과 문화의 발달로 인하여 다양한 영상 컨텐츠가 제작되어 세계 전역으로 전파되고 있다. 그러나 영상 컨텐츠는 책과 달리 시청자가 컨텐츠의 진행 수준을 제어할 수 없어서 재생 중인 영상에 대한 시청자의 이해 여부와 무관하게 해당 영상을 감상해야 하는 문제점이 있다. 따라서 이와 같은 문제점을 해결하기 위해 영상의 재생 시점을 제어하거나 영상을 탐색하기 위한 다양한 방법이 제시되고 있다.

영상의 재생 시점을 제어하기 위하여 가장 대표적으로 제시될 수 있는 방법으로서, 스크롤 바를 이용한 제어가 예시될 수 있다. 이는 사용자가 영상의 재생 시간에 대응하여 생성되는 스크롤 영역에서 임의의 지점을 선택하는 경우, 해당 시점으로 영상의 재생 시점이 이동하게 되는 방식이다.

하지만 스크롤 영역은 영상의 재생 시간과 상관없이 일정한 길이를 갖기 때문에, 영상의 재생 시간이 긴 경우 스크롤 영역에서의 작은 이동만으로도 영상의 재생 시점이 크게 변경되어 재생 시점의 미세한 제어가 어려워진다. 특히 모바일 환경에서 영상을 감상하는 경우, 디스플레이의 크기가 작고, 손가락으로 스크롤 바를 제어해야 하는 경우가 많아 영상의 재생 시점을 제어하는 것이 더욱 어려워지는 문제가 있다.

또한, 영상의 경우 사용자의 이해를 돕기 위하여 등장 인물의 대사 또는 재생되는 내용의 설명을 위한 자막이 첨부되어 제공되는 경우가 많다. 그러나 사용자가 영상으로부터 특정한 내용의 자막을 찾고자 스크롤 기능을 이용하는 경우 상기한 문제로 인하여 원하는 장면과 대사에 대한 자막을 찾는 것이 용이하지 않다.

또한, 사용자의 통신 속도가 제한되는 환경에서 영상의 내용을 파악하고자 할 때, 영상이 대용량이거나 고화질인 경우 서버로부터 컨텐츠 제공 단말에 영상이 원활히 제공될 수 없어 영상의 모든 장면을 실시간으로 감상하는 것이 어려울 수 있다.

본 발명은 전술한 문제 및 다른 문제를 해결하는 것을 목적으로 한다. 또 다른 목적은 영상 컨텐츠로부터 추출된 오디오 정보를 이용하여 재생 구간별 장면메타정보를 생성하는 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법을 제공함에 있다.

또 다른 목적은 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 활용하여 다양한 비디오 서비스를 제공하는 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법을 제공함에 있다.

상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따르면, 영상 컨텐츠와 관련된 자막 파일을 기반으로 복수의 단위 자막들을 검출하고, 상기 복수의 단위 자막들을 보정하는 자막정보 생성부; 상기 영상 컨텐츠로부터 오디오 정보를 추출하고, 상기 오디오 정보를 기반으로 복수의 음성 구간들을 검출하며, 각 음성 구간 내의 오디오 정보에 대해 음성 인식을 수행하는 오디오정보 생성부; 및 각 음성 구간에 대응하는 비디오 구간을 검출하고, 상기 비디오 구간 내의 영상 프레임들에 대해 영상 인식을 수행하며, 상기 영상 프레임들 중에서 대표 이미지를 선택하는 이미지정보 생성부를 포함하는 장면메타정보 생성 장치를 제공한다.

본 발명의 다른 측면에 따르면, 영상 컨텐츠와 관련된 자막 파일을 기반으로 자막 정보를 검출하는 단계; 상기 영상 컨텐츠로부터 오디오 정보를 추출하고, 상기 오디오 정보를 기반으로 복수의 음성 구간들을 검출하는 단계; 각 음성 구간 내의 오디오 정보에 대한 음성 인식 결과를 기반으로 상기 자막 정보를 보정하는 단계; 및 각 음성 구간에 대응하는 비디오 구간을 검출하고, 상기 비디오 구간 내의 영상 프레임들에 대한 영상 인식 결과를 기반으로 대표 이미지를 선택하는 단계를 포함하는 장면메타정보 생성 방법을 제공한다.

본 발명의 또 다른 측면에 따르면, 영상 컨텐츠로부터 오디오 정보를 추출하고, 상기 오디오 정보를 기반으로 복수의 음성 구간들을 검출하며, 각 음성 구간 내의 오디오 정보에 대해 음성 인식을 수행하는 오디오정보 생성부; 각 음성 구간 내의 오디오 정보에 대한 음성 인식 결과를 기반으로 자막 정보를 생성하는 자막정보 생성부; 및 각 음성 구간에 대응하는 비디오 구간을 검출하고, 상기 비디오 구간 내의 영상 프레임들에 대해 영상 인식을 수행하며, 상기 영상 프레임들 중에서 대표 이미지를 선택하는 이미지정보 생성부를 포함하는 장면메타정보 생성 장치를 제공한다.

본 발명의 실시 예들에 따른 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법의 효과에 대해 설명하면 다음과 같다.

본 발명의 실시 예들 중 적어도 하나에 의하면, 영상 컨텐츠로부터 추출된 오디오 정보를 이용하여 재생 구간별 장면메타정보를 생성함으로써, 상기 재생 구간별 장면메타정보를 활용한 다양한 비디오 서비스를 제공할 수 있다는 장점이 있다.

또한, 본 발명의 실시 예들 중 적어도 하나에 의하면, 영상 컨텐츠로부터 추출된 오디오 정보를 이용하여 자막 구간 및/또는 자막 텍스트 정보를 보정함으로써, 디스플레이부의 일 영역에 표시된 자막에 대한 시청자의 가독성을 향상시킬 수 있다는 장점이 있다.

다만, 본 발명의 실시 예들에 따른 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시 예에 따른 컨텐츠 제공 시스템의 구성을 도시하는 도면;
도 2는 본 발명의 일 실시 예에 따른 서버의 구성을 도시하는 블록도;
도 3은 본 발명의 일 실시 예에 따른 사용자 단말의 구성을 도시하는 블록도;
도 4는 본 발명의 일 실시 예에 따른 장면메타정보 생성 장치의 구성을 도시하는 블록도;
도 5는 단위 자막의 타임코드를 음성 구간에 맞춰 확장하는 동작을 설명하기 위해 참조되는 도면;
도 6은 하나의 단위 자막을 둘 이상의 단위 자막들로 분할하는 동작을 설명하기 위해 참조되는 도면;
도 7은 둘 이상의 단위 자막을 하나의 단위 자막으로 병합하는 동작을 설명하기 위해 참조되는 도면;
도 8은 본 발명의 일 실시 예에 따른 장면메타정보 프레임의 구성을 나타내는 도면;
도 9는 본 발명의 일 실시 예에 따른 음성 구간 분석부의 동작 프로세스를 나타내는 도면;
도 10은 본 발명의 일 실시 예에 따른 음성인식부의 동작 프로세스를 나타내는 도면;
도 11은 본 발명의 일 실시 예에 따른 이미지 태깅부의 동작 프로세스를 나타내는 도면;
도 12는 각 영상 프레임에 대응하는 이미지 태그 정보들을 예시하는 도면;
도 13은 본 발명의 일 실시 예에 따른 장면 선택부의 동작 프로세스를 나타내는 도면;
도 14는 복수의 이미지 태그 정보와 텍스트화된 음성 정보 간의 유사도 측정을 예시하는 도면;
도 15는 본 발명의 다른 실시 예에 따른 장면메타정보 생성 장치의 구성을 도시하는 블록도;
도 16은 본 발명의 일 실시 예에 따른 자막 보정 장치의 구성을 도시하는 블록도;
도 17은 본 발명의 일 실시 예에 따른 자막 보정 방법을 설명하는 순서도;
도 18은 장면메타정보를 활용하여 비디오 슬라이드 서비스를 제공하는 사용자 단말을 예시하는 도면;
도 19는 장면메타정보를 활용하여 비디오 검색 서비스를 제공하는 사용자 단말을 예시하는 도면.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 즉, 본 발명에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.

또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 발명은 영상 컨텐츠로부터 추출된 오디오 정보를 이용하여 재생 구간별 장면메타정보를 생성하는 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법을 제안한다. 또한, 본 발명은 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 활용하여 다양한 비디오 서비스를 제공하는 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법을 제안한다.

한편, 본 명세서에서, 영상 콘텐츠는 사용자 단말의 표시 장치에서 재생되는 컨텐츠로서 다수의 영상 및 오디오 프레임으로 구성된 동영상(moving image)을 의미한다. 자막 파일(가령, smi 파일)은 영상 컨텐츠와 관련된 자막에 관한 파일로서, 영상 컨텐츠에 포함되어 제공되거나 혹은 영상 컨텐츠와 별개로 제공될 수 있다. 자막 파일은 영상 컨텐츠 제공자 또는 별도의 자막 제공자에 의해 제작되어 데이터베이스에 저장될 수 있다.

장면메타정보는 영상 컨텐츠를 구성하는 장면들(scenes)을 식별하기 위한 정보로서, 타임코드(timecode), 대표 이미지 정보, 자막 정보, 오디오 정보 중 적어도 하나를 포함한다. 여기서, 타임코드는 영상 컨텐츠의 자막 구간 및/또는 음성 구간에 관한 정보이고, 대표 이미지 정보는 음성 구간 내의 장면 이미지들 중 어느 하나의 이미지에 관한 정보이다. 또한, 자막 정보는 각 자막 구간에 대응하는 단위 자막 정보이고, 오디오 정보는 각 음성 구간에 대응하는 단위 오디오 정보이다.

음성 구간은 영상 컨텐츠의 재생 구간 중 단위 음성이 출력되는 구간에 관한 정보로서, 각 단위 음성의 출력이 시작되는 영상 컨텐츠의 재생 시점에 관한 '음성 시작 시간 정보'와, 각 단위 음성의 출력이 종료되는 영상 컨텐츠의 재생 시점에 관한 '음성 종료 시간 정보'와, 각 단위 음성의 출력이 유지되는 시간에 관한 '음성 출력 시간 정보'로 구성될 수 있다. 한편, 다른 실시 예로, 상기 음성 구간은 '음성 시작 시간 정보'와 '음성 종료 시간 정보'만으로 구성될 수도 있다.

자막 구간은 영상 컨텐츠의 재생 구간 중 단위 자막이 표시되는 구간에 관한 정보로서, 각 단위 자막의 표시가 시작되는 영상 컨텐츠의 재생 시점에 관한 '자막 시작 시간 정보'와, 각 단위 자막의 표시가 종료되는 영상 컨텐츠의 재생 시점에 관한 '자막 종료 시간 정보'와, 각 단위 자막의 표시가 유지되는 시간에 관한 '자막 표시 시간 정보'로 구성될 수 있다. 한편, 다른 실시 예로, 상기 자막 구간은 '자막 시작 시간 정보'와 '자막 종료 시간 정보'만으로 구성될 수도 있다.

이처럼, 음성 구간 및 자막 구간은 영상 컨텐츠의 재생 시점을 기준으로 설정될 수 있다. 한편, 자막 구간은 자막 제작자 또는 편집자 등에 의해 임의로 설정될 수도 있다. 자막 구간은 영상 컨텐츠에서 대사 또는 내레이션이 출력되는 구간에 한하여 설정되지 않는다. 따라서 자막 정보의 제작자나 편집자는 영상 컨텐츠의 임의 구간을 자막 구간으로 설정할 수도 있다.

이하에서는, 본 발명의 다양한 실시 예들에 대하여, 도면을 참조하여 상세히 설명한다.

도 1은 본 발명의 일 실시 예에 따른 컨텐츠 제공 시스템의 구성을 도시하는 도면이다.

도 1을 참조하면, 본 발명에 따른 컨텐츠 제공 시스템(10)은, 통신 네트워크(100), 서버(200) 및 사용자 단말(300) 등을 포함할 수 있다.

서버(200)와 사용자 단말(300)은 통신 네트워크(100)를 통해 서로 연결될 수 있다. 통신 네트워크(100)는 유선 네트워크와 무선 네트워크를 포함할 수 있으며, 구체적으로, 근거리 네트워크(LAN: Local Area Network), 도시권 네트워크(MAN: Metropolitan Area Network), 광역 네트워크(WAN: Wide Area Network) 등 다양한 네트워크를 포함할 수 있다. 또한, 통신 네트워크(100)는 공지의 월드 와이드 웹(WWW: World Wide Web)을 포함할 수도 있다. 그러나, 본 발명에 따른 통신 네트워크(100)는 상기 열거된 네트워크에 국한되지 않고, 공지의 무선 데이터 네트워크, 공지의 전화 네트워크, 공지의 유/무선 텔레비전 네트워크 중 적어도 하나를 포함할 수도 있다.

서버(200)는, 서비스 제공 서버 또는 컨텐츠 제공 서버로서, 사용자 단말(300)에서 요청하는 통신 서비스(communication service)를 제공하는 기능을 수행할 수 있다. 일 예로, 서버(200)가 웹 서버인 경우, 서버(200)는 사용자 단말(300)에서 요청하는 컨텐츠(content)를 웹 페이지 형태로 구성하여 사용자 단말(300)로 제공할 수 있다. 한편, 다른 예로, 서버(200)가 멀티미디어 제공 서버인 경우, 서버(200)는 사용자 단말(300)에서 요청하는 멀티미디어 컨텐츠를 전송 파일 형태로 구성하여 해당 단말(300)로 제공할 수 있다.

서버(200)는 데이터베이스에 저장된 영상 컨텐츠 및/또는 자막 파일을 기반으로 타임코드, 대표 이미지 정보, 자막 정보 및 오디오 정보 중 적어도 하나를 포함하는 재생 구간별 장면메타정보를 생성하고, 상기 재생 구간별 장면메타정보를 사용자 단말(300)로 제공할 수 있다. 여기서, 장면메타정보를 생성하기 위한 재생 구간은 자막 구간이거나 혹은 음성 구간일 수 있다. 따라서, 상기 '재생 구간별 장면메타정보'는 '자막 구간별 장면메타정보' 또는 '음성 구간별 장면메타정보'라 지칭될 수 있다.

서버(200)는 영상 콘텐츠 및 자막 파일과 함께 장면메타정보를 사용자 단말(300)로 전송하거나 혹은 상기 영상 컨텐츠 및 자막 파일과 별개로 장면메타정보를 사용자 단말(300)로 전송할 수 있다.

서버(200)는 영상 컨텐츠에 관한 장면메타정보를 활용하여 다양한 비디오 서비스를 사용자 단말(300)로 제공할 수 있다. 일 예로, 서버(200)는 영상 컨텐츠에 관한 장면메타정보를 활용하여 비디오 검색 서비스를 사용자 단말(300)로 제공할 수 있다. 여기서, 비디오 검색 서비스는 시청자로 하여금 영상 컨텐츠에 포함된 장면들 중 원하는 장면을 쉽고 빠르게 탐색할 수 있도록 도와주는 비디오 서비스이다.

한편, 다른 예로, 서버(200)는 영상 컨텐츠에 관한 장면메타정보를 활용하여 비디오 슬라이드 서비스(video slide service)를 사용자 단말(300)로 제공할 수 있다. 여기서, 비디오 슬라이드 서비스는 시청자로 하여금 동영상을 페이지 단위로 책처럼 넘겨서 동영상의 내용을 쉽고 빠르게 파악할 수 있도록 도와주는 비디오 서비스이다.

이를 위해, 서버(200)는 영상 컨텐츠로부터 획득한 재생 구간 별 장면메타정보(즉, 타임코드, 대표 이미지 정보, 자막 정보 및 오디오 정보)를 기반으로 복수의 페이지 정보를 생성하여 사용자 단말(300)로 제공할 수 있다. 여기서, 페이지 정보는 비디오 슬라이드 서비스를 제공하기 위한 정보로서, 타임코드, 대표 이미지 정보, 단위 자막 정보만을 포함하거나 혹은 타임코드, 대표 이미지 정보, 단위 자막 정보 및 단위 오디오 정보를 포함할 수 있다.

사용자 단말(300)은 서버(200)로부터 제공받은 정보를 기반으로 통신 서비스를 제공할 수 있다. 일 예로, 서버(200)가 웹 서버인 경우, 사용자 단말(300)은 서버(200)로부터 제공받은 컨텐츠를 기반으로 웹 서비스를 제공할 수 있다. 한편, 다른 예로, 서버(200)가 멀티미디어 제공 서버인 경우, 사용자 단말(300)은 서버(200)로부터 제공받은 컨텐츠를 기반으로 멀티미디어 서비스를 제공할 수 있다.

사용자 단말(300)은 영상 컨텐츠의 재생 및 영상 컨텐츠와 관련된 부가 서비스(가령, 비디오 슬라이드 서비스, 비디오 검색 서비스 등)를 제공하기 위한 애플리케이션을 다운로드하여 설치할 수 있다. 이때, 사용자 단말(300)은 앱 스토어(app store), 플레이 스토어(play store), 웹 사이트(web site) 등에 접속하여 해당 애플리케이션을 다운로드하거나, 혹은 별도의 저장매체를 통해 해당 애플리케이션을 다운로드할 수 있다. 또한, 사용자 단말(300)은 서버(200) 또는 타 기기와의 유/무선 통신을 통해 해당 애플리케이션을 다운로드할 수도 있다.

사용자 단말(300)은 서버(200)로부터 영상 컨텐츠, 자막 파일, 영상 컨텐츠에 관한 장면메타정보 및 상기 장면메타정보에 대응하는 복수의 페이지 정보 중 적어도 하나를 수신할 수 있다. 이때, 상기 영상 컨텐츠, 자막 파일, 장면메타정보 및 페이지 정보 중 적어도 하나는 파일 형태로 수신되거나 혹은 스트리밍(streaming) 방식으로 수신될 수 있다.

한편, 다른 실시 예로, 사용자 단말(300)은 서버(200)로부터 수신하거나 혹은 메모리에 저장된 영상 컨텐츠 및/또는 자막 파일을 기반으로 재생 구간별 장면메타정보를 생성하고, 상기 재생 구간별 장면메타정보를 이용한 복수의 페이지 정보를 생성할 수 있다. 또한, 사용자 단말(300)은 서버(200)로부터 수신하거나 혹은 메모리에 저장된 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 기반으로 복수의 페이지 정보를 생성할 수 있다.

사용자 단말(300)은 서버(200)로부터 수신하거나 혹은 메모리에 저장된 영상 컨텐츠 및/또는 자막 파일을 기반으로 동영상 재생 서비스를 제공할 수 있다. 또한, 사용자 단말(300)은 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 기반으로 비디오 검색 서비스를 제공할 수 있다. 또한, 사용자 단말은 재생 구간별 장면메타정보를 활용한 복수의 페이지 정보를 기반으로 비디오 슬라이드 서비스를 제공할 수 있다.

본 명세서에서 설명되는 사용자 단말(300)에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 데스크톱 컴퓨터(desktop computer), 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등이 포함될 수 있다.

한편, 본 실시 예에서는 사용자 단말(300)이 서버(200)와 연동하여 동영상 재생 서비스, 비디오 검색 서비스 또는 비디오 슬라이드 서비스 등을 제공하는 것을 예시하고 있으나 이를 제한하지는 않으며, 사용자 단말(300)이 서버(200)와 연동 없이 독립적으로 해당 서비스들을 제공할 수 있음은 당업자에게 자명할 것이다.

도 2는 본 발명의 일 실시 예에 따른 서버(200)의 구성을 도시하는 블록도이다.

도 2를 참조하면, 서버(200)는 통신부(210), 데이터베이스(220), 장면메타정보 생성부(230), 페이지 생성부(240) 및 제어부(250)를 포함할 수 있다. 도 2에 도시된 구성요소들은 서버(200)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서상에서 설명되는 서버는 위에서 열거된 구성요소들보다 많거나, 또는 적은 구성요소들을 가질 수 있다.

통신부(210)는 유선 통신을 지원하기 위한 유선 통신 모듈과 무선 통신을 지원하기 위한 무선 통신 모듈을 포함할 수 있다. 유선 통신 모듈은, 유선 통신을 위한 기술표준들 또는 통신방식(예를 들어, 이더넷(Ethernet), PLC(Power Line Communication), 홈 PNA(Home PNA), IEEE 1394 등)에 따라 구축된 유선 통신망 상에서 타 서버, 기지국, AP(access point) 중 적어도 하나와 유선 신호를 송수신한다. 무선 통신 모듈은, 무선 통신을 위한 기술표준들 또는 통신방식(예를 들어, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), DLNA(Digital Living Network Alliance), GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), WCDMA(Wideband CDMA), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 무선 통신망 상에서 기지국, Access Point 및 중계기 중 적어도 하나와 무선 신호를 송수신한다.

본 실시 예에서, 통신부(210)는 데이터베이스(220)에 저장된 영상 컨텐츠, 영상 컨텐츠에 관한 자막 파일, 영상 컨텐츠에 관한 재생 구간별 장면메타정보, 상기 재생 구간별 장면 메타정보에 대응하는 복수의 페이지 정보 등을 사용자 단말(300)로 전송하는 기능을 수행할 수 있다. 또한, 통신부(210)는 사용자 단말(300)에서 요청하는 통신 서비스에 관한 정보를 수신하는 기능을 수행할 수 있다.

데이터베이스(220)는 사용자 단말(300) 또는 타 서버(미도시)로부터 수신하는 정보(또는 데이터), 서버(200)에 의해 자체적으로 생성되는 정보(또는 데이터), 사용자 단말(300) 또는 타 서버로 제공할 정보(또는 데이터) 등을 저장하는 기능을 수행할 수 있다.

본 실시 예에서, 데이터베이스(200)는 복수의 영상 컨텐츠, 복수의 영상 컨텐츠에 관한 자막 파일, 복수의 영상 컨텐츠에 관한 재생 구간별 장면메타정보, 상기 재생 구간별 장면메타정보에 대응하는 복수의 페이지 정보 등을 저장할 수 있다.

장면메타정보 생성부(230)는 데이터베이스(220)에 저장된 영상 컨텐츠 및/또는 자막 파일을 기반으로 타임코드, 대표 이미지 정보, 자막 정보 및 오디오 정보 중 적어도 하나를 포함하는 재생 구간별 장면메타정보를 생성할 수 있다.

이를 위해, 장면메타정보 생성부(230)는 영상 컨텐츠로부터 추출된 오디오 정보를 기반으로 복수의 음성 구간을 추출하고, 각 음성 구간 내의 오디오 정보를 음성 인식하여 기존의 자막 정보를 보정하거나 새로운 자막 정보를 생성할 수 있다. 또한, 장면메타정보 생성부(230)는 영상 컨텐츠로부터 추출된 오디오 정보를 기반으로 복수의 음성 구간을 추출하고, 각 음성 구간 내의 오디오 및 이미지 정보에 대한 음성 인식 및 영상 인식을 통해 각 음성 구간 내의 대표 이미지를 선택할 수 있다.

페이지 생성부(240)는 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 기반으로 복수의 페이지 정보를 생성할 수 있다. 즉, 페이지 생성부(240)는 타임코드, 대표 이미지 정보 및 자막 정보(즉, 단위 자막 정보)를 이용하여 페이지를 생성할 수 있다. 한편, 구현 예에 따라서, 페이지 생성부(240)는 타임코드, 대표 이미지 정보, 자막 정보(즉, 단위 자막 정보) 및 오디오 정보(즉, 단위 오디오 정보)를 이용하여 페이지를 생성할 수 있다.

페이지 정보는 비디오 슬라이드 서비스를 제공하기 위한 정보로서, 타임코드, 대표 이미지 정보, 자막 정보만을 포함하거나 혹은 타임코드, 대표 이미지 정보, 자막 정보 및 오디오 정보를 포함할 수 있다.

대표 이미지 정보는 해당 페이지를 대표하는 이미지 정보로서, 자막 또는 음성 구간 내에서 재생되는 영상 컨텐츠의 연속된 영상 프레임들 중 적어도 하나를 포함할 수 있다. 보다 상세하게, 대표 이미지 정보는 자막 또는 음성 구간 내의 영상 프레임들 중에서 임의로 선택된 영상 프레임이거나 혹은 상기 영상 프레임들 중에서 미리 결정된 규칙에 따라 선택된 영상 프레임(예를 들면, 자막 또는 음성 구간 중 가장 앞선 순서의 영상 프레임, 중간 순서의 영상 프레임, 마지막 순서의 영상 프레임, 자막 정보와 가장 유사한 영상 프레임 등)일 수 있다.

제어부(250)는 서버(200)의 전반적인 동작을 제어한다. 나아가 제어부(250)는 이하에서 설명되는 다양한 실시 예들을 본 발명에 따른 서버(200) 상에서 구현하기 위하여, 위에서 살펴본 구성요소들을 중 적어도 하나를 조합하여 제어할 수 있다.

본 실시 예에서, 제어부(250)는 사용자 단말(300)에서 요청하는 통신 서비스를 제공할 수 있다. 일 예로, 제어부(250)는 동영상 재생 서비스, 비디오 검색 서비스 또는 비디오 슬라이드 서비스 등을 사용자 단말(300)로 제공할 수 있다.

이를 위해, 제어부(250)는 데이터베이스(220)에 저장된 영상 컨텐츠와, 상기 영상 컨텐츠에 관한 자막 파일을 사용자 단말(300)로 제공할 수 있다. 또한, 제어부(250)는 영상 컨텐츠 및/또는 자막 파일을 기반으로 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 생성하여 사용자 단말(300)로 제공할 수 있다. 또한, 제어부(250)는 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 기반으로 복수의 페이지 정보를 생성하여 사용자 단말(300)로 제공할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 사용자 단말(300)의 구성을 설명하기 위한 블록도이다.

도 3을 참조하면, 사용자 단말(300)은 통신부(310), 입력부(320), 출력부(330), 메모리(340) 및 제어부(350) 등을 포함할 수 있다. 도 3에 도시된 구성요소들은 사용자 단말을 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서상에서 설명되는 사용자 단말은 위에서 열거된 구성요소들보다 많거나 또는 적은 구성요소들을 가질 수 있다.

통신부(310)는 유선 네트워크를 지원하기 위한 유선 통신 모듈과, 무선 네트워크를 지원하기 위한 무선 통신 모듈을 포함할 수 있다. 유선 통신 모듈은 유선 통신을 위한 기술표준들 또는 통신방식(예를 들어, 이더넷(Ethernet), PLC(Power Line Communication), 홈 PNA(Home PNA), IEEE 1394 등)에 따라 구축된 유선 통신망 상에서 외부 서버 및 타 단말 중 적어도 하나와 유선 신호를 송수신한다. 무선 통신 모듈은, 무선 통신을 위한 기술표준들 또는 통신방식(예를 들어, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), DLNA(Digital Living Network Alliance), GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), WCDMA(Wideband CDMA), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 무선 통신망 상에서 기지국, Access Point 및 중계기 중 적어도 하나와 무선 신호를 송수신한다.

본 실시 예에서, 통신부(310)는 서버(200)로부터 영상 컨텐츠, 영상 컨텐츠에 관한 자막 파일, 영상 컨텐츠에 관한 재생 구간별 장면메타정보, 상기 재생 구간별 장면 메타정보에 대응하는 복수의 페이지 정보 등을 수신하는 기능을 수행할 수 있다. 또한, 통신부(310)는 사용자 단말(300)에서 요청하는 통신 서비스에 관한 정보를 서버(200)로 전송하는 기능을 수행할 수 있다.

입력부(320)는 영상 신호 입력을 위한 카메라, 오디오 신호 입력을 위한 마이크로폰(microphone), 사용자로부터 정보를 입력받기 위한 사용자 입력부(예를 들어, 키보드, 마우스, 터치키(touch key), 푸시키(mechanical key) 등) 등을 포함할 수 있다. 상기 입력부(320)에서 획득한 데이터는 분석되어 단말 사용자의 제어 명령으로 처리될 수 있다. 본 실시 예에서, 입력부(320)는 영상 컨텐츠의 재생과 관련된 명령 신호들을 수신할 수 있다.

출력부(330)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 디스플레이부, 음향 출력부, 햅팁 모듈 및 광 출력부 중 적어도 하나를 포함할 수 있다.

디스플레이부는 사용자 단말(300)에서 처리되는 정보를 표시(출력)한다. 본 실시 예에서, 디스플레이부는 사용자 단말(300)에서 구동되는 동영상 재생 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface) 정보, GUI(Graphic User Interface) 정보를 표시할 수 있다.

디스플레이부는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 사용자 단말(300)과 시청자 사이의 입력 인터페이스를 제공하는 사용자 입력부로써 기능함과 동시에, 사용자 단말(300)과 시청자 사이의 출력 인터페이스를 제공할 수 있다.

음향 출력부는 통신부(310)로부터 수신되거나 메모리(340)에 저장된 오디오 데이터를 출력할 수 있다. 본 실시 예에서, 음향 출력부는 사용자 단말(300)에서 재생되는 영상 컨텐츠와 관련된 음향 신호를 출력할 수 있다.

메모리(340)는 사용자 단말(300)의 다양한 기능을 지원하는 데이터를 저장한다. 본 실시 예에서, 메모리(340)는 사용자 단말(300)에서 구동되는 동영상 재생 프로그램(application program 또는 애플리케이션(application)), 사용자 단말(300)의 동작을 위한 데이터들 및 명령어들을 저장할 수 있다. 또한, 메모리(340)는 복수의 영상 컨텐츠, 복수의 영상 컨텐츠에 관한 자막 파일, 복수의 영상 컨텐츠에 관한 재생 구간별 장면메타정보, 상기 재생 구간별 장면메타정보에 대응하는 복수의 페이지 정보 등을 저장할 수 있다.

메모리(340)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

제어부(350)는 메모리(340)에 저장된 동영상 재생 프로그램과 관련된 동작과, 통상적으로 사용자 단말(300)의 전반적인 동작을 제어한다. 나아가 제어부(350)는 이하에서 설명되는 다양한 실시 예들을 본 발명에 따른 사용자 단말(300) 상에서 구현하기 위하여, 위에서 살펴본 구성요소들을 중 적어도 하나를 조합하여 제어할 수 있다.

본 실시 예에서, 제어부(350)는 서버(200)로부터 수신하거나 혹은 메모리(340)에 저장된 영상 컨텐츠 및/또는 자막 파일을 기반으로 동영상 재생 서비스를 제공할 수 있다. 또한, 제어부(350)는 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 기반으로 비디오 검색 서비스를 제공할 수 있다. 또한, 제어부(350)는 재생 구간별 장면메타정보를 통해 생성된 복수의 페이지 정보를 기반으로 비디오 슬라이드 서비스를 제공할 수 있다.

제어부(350)는 서버(200)로부터 수신하거나 혹은 메모리(340)에 저장된 영상 컨텐츠 및/또는 자막 파일을 기반으로 재생 구간별 장면메타정보를 생성하고, 상기 재생 구간별 장면메타정보를 이용하여 복수의 페이지 정보를 생성할 수 있다. 또한, 제어부(300)는 서버(200)로부터 수신하거나 혹은 메모리(340)에 저장된 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 기반으로 복수의 페이지 정보를 생성할 수 있다.

도 4는 본 발명의 일 실시 예에 따른 장면메타정보 생성 장치의 구성을 도시하는 블록도이다.

도 4를 참조하면, 본 발명의 일 실시 예에 따른 장면메타정보 생성 장치(400)는 자막정보 생성부(410), 오디오정보 생성부(420), 이미지정보 생성부(430) 및 장면메타정보 구성부(440)를 포함할 수 있다. 도 4에 도시된 구성요소들은 장면메타정보 생성 장치(400)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서상에서 설명되는 장면메타정보 생성 장치는 위에서 열거된 구성요소들보다 많거나, 또는 적은 구성요소들을 가질 수 있다.

본 발명에 따른 장면메타정보 생성 장치(400)는 서버(200)의 장면메타정보 생성부(230)를 통해 구현되거나 혹은 사용자 단말(300)의 제어부(350)를 통해 구현될 수 있다. 또한, 장면메타정보 생성 장치(400)는 서버(200) 및 사용자 단말(300)과 독립적인 하드웨어 및/또는 소프트웨어를 통해 구현될 수도 있다.

자막정보 생성부(410)는 영상 컨텐츠와 관련된 자막 파일을 기반으로 전체 자막을 복수의 단위 자막들로 분류하고, 상기 복수의 단위 자막들의 자막 구간을 검출하며, 각각의 자막 구간에 해당하는 자막 텍스트 정보를 검출할 수 있다. 또한, 자막정보 생성부(410)는 영상 컨텐츠에서 추출된 오디오 정보를 이용하여 복수의 단위 자막들을 보정할 수 있다.

이러한 자막정보 생성부(410)는 영상 컨텐츠와 관련된 단위 자막들을 검출하기 위한 자막 스트림 추출부(또는 자막 추출부, 411), 상기 단위 자막들의 자막 구간을 검출하기 위한 자막 구간 검출부(413) 및 상기 단위 자막들을 보정하기 위한 자막 보정부(415)를 포함할 수 있다.

자막 스트림 추출부(411)는 영상 컨텐츠에 포함된 자막 파일을 기반으로 자막 스트림을 추출할 수 있다. 한편, 다른 실시 예로, 자막 스트림 추출부(411)는 영상 컨텐츠와 별도로 저장된 자막 파일을 기반으로 자막 스트림을 추출할 수도 있다.

자막 스트림 추출부(411)는 영상 컨텐츠의 자막 스트림을 복수의 단위 자막으로 분류하고, 각 단위 자막의 텍스트 정보를 검출할 수 있다. 여기서, 복수의 단위 자막들은 자막의 길이(가령, 자막 텍스트의 길이, 자막 구간의 길이)에 따라 분류되거나 혹은 문장 단위로 분류될 수 있으며 반드시 이에 제한되지는 않는다.

자막 구간 검출부(413)는 영상 컨텐츠의 재생 구간 중 각 단위 자막이 표시되는 자막 구간을 검출할 수 있다. 즉, 자막 구간 검출부(413)는 각 단위 자막의 표시가 시작되는 영상 컨텐츠의 재생 시점에 관한 '자막 시작 시간 정보'와, 각 단위 자막의 표시가 종료되는 영상 컨텐츠의 재생 시점에 관한 '자막 종료 시간 정보'와, 각 단위 자막의 표시가 유지되는 시간에 관한 '자막 표시 시간 정보'를 검출할 수 있다.

자막 보정부(415)는 영상 컨텐츠의 오디오 정보를 통해 분석된 음성 구간들을 기반으로 복수의 단위 자막들의 자막 구간을 보정할 수 있다. 즉, 자막 보정부(415)는 각 단위 자막의 자막 구간을 해당 자막에 대응하는 오디오의 음성 구간에 맞춰 확장하거나, 축소하거나 이동할 수 있다.

가령, 도 5에 도시된 바와 같이, 자막 보정부(415)는, 특정 단위 자막의 자막 구간(S10)이 해당 자막에 대응하는 오디오의 음성 구간(A10)보다 작은 경우, 해당 자막의 자막 구간을 해당 자막에 대응하는 오디오의 음성 구간(A10)에 맞춰 확장할 수 있다(S10→S20).

한편, 도면에 도시되고 있지 않지만, 특정 단위 자막의 자막 구간이 해당 자막에 대응하는 오디오의 음성 구간보다 큰 경우, 해당 자막의 자막 구간을 해당 자막에 대응하는 오디오의 음성 구간에 맞춰 축소할 수 있다.

자막 보정부(415)는 각 음성 구간 내의 오디오 정보를 음성 인식하여 복수의 단위 자막들의 자막 텍스트 정보를 보정할 수 있다. 즉, 자막 보정부(415)는 각 단위 자막의 텍스트 정보를 음성 인식을 통해 텍스트화된 오디오 정보에 맞춰 보정할 수 있다. 또한, 자막 보정부(415)는 각 음성 구간 내의 오디오 정보를 음성 인식한 결과를 기반으로 비 음성 구간에 존재하는 불필요한 자막을 삭제할 수도 있다.

자막 보정부(415)는 각 음성 구간 내의 오디오 정보를 음성 인식하여 하나의 단위 자막을 둘 이상의 단위 자막으로 분할할 수 있다. 가령, 도 6에 도시된 바와 같이, 단위 자막 구간(S10) 내의 오디오 정보를 음성 인식한 결과, 해당 단위 자막(610)이 두 개의 음성 구간(A10, A20)으로 구성된 경우, 자막 보정부(415)는 하나의 단위 자막(610)을 상기 음성 구간들(A10, A20)에 대응하는 두 개의 단위 자막(620, 630)으로 분할할 수 있다.

자막 보정부(415)는 각 음성 구간 내의 오디오 정보를 음성 인식하여 둘 이상의 단위 자막을 하나의 단위 자막으로 병합할 수 있다. 가령, 도 7에 도시된 바와 같이, 제1 단위 자막 구간(S10) 내의 오디오 정보와 제2 단위 자막 구간(S20) 내의 오디오 정보를 음성 인식한 결과, 서로 인접한 제1 및 제2 단위 자막(710, 720)이 하나의 음성 구간(A10)으로 구성된 경우, 자막 보정부(415)는 두 개의 단위 자막(710, 720)을 상기 음성 구간(A10)에 대응하는 하나의 단위 자막(620, 630)으로 병합할 수 있다.

자막 보정부(415)는, 자막 정보와 오디오 정보의 언어가 서로 다른 경우, 문장의 의미를 유지하기 위해 둘 이상의 단위 자막들을 문장 단위로 병합할 수 있다.

오디오정보 생성부(420)는 영상 컨텐츠에서 추출된 오디오 정보를 기반으로 복수의 단위 자막에 대응하는 복수의 단위 오디오 정보를 검출할 수 있다. 또한, 오디오정보 생성부(420)는 영상 컨텐츠에서 추출된 오디오 정보를 기반으로 복수의 음성 구간들을 분석하고, 각 음성 구간 내의 오디오 정보를 음성 인식할 수 있다. 오디오정보 생성부(420)는 음성 인식을 통해 텍스트화된 음성 정보를 자막정보 생성부(410) 및 이미지정보 생성부(430)로 제공할 수 있다.

이러한 오디오정보 생성부(420)는 영상 컨텐츠의 오디오 정보를 검출하기 위한 오디오 스트림 추출부(또는 오디오 추출부, 421), 영상 컨텐츠의 음성 구간들을 검출하기 위한 음성 구간 분석부(423) 및 각 음성 구간 내의 오디오 정보를 음성 인식하기 위한 음성 인식부(425)를 포함할 수 있다.

오디오 스트림 추출부(421)는 영상 컨텐츠에 포함된 오디오 파일을 기반으로 오디오 스트림을 추출할 수 있다. 오디오 스트림 추출부(421)는 오디오 스트림을 신호 처리에 적합한 복수의 오디오 프레임으로 분할할 수 있다. 여기서, 상기 오디오 스트림은 음성 스트림과 비 음성 스트림을 포함할 수 있다.

음성 구간 분석부(423)는 오디오 프레임의 특징들을 추출하여 각 음성 구간의 시작 시점과 종료 시점을 검출할 수 있다. 여기서, 각 음성 구간의 시작 시점은 해당 구간에서 음성 출력이 시작되는 영상 컨텐츠의 재생 시점에 대응하고, 각 음성 구간의 종료 시점은 해당 구간에서 음성 출력이 종료되는 영상 컨텐츠의 재생 시점에 대응한다.

음성 구간 분석부(423)는 복수의 음성 구간들에 관한 정보를 자막 보정부(415) 및 비디오 구간 추출부(433)로 제공할 수 있다. 상기 음성 구간 분석부(423)에 대한 자세한 설명은 도 9를 참조하여 후술하도록 한다.

음성 인식부(425)는 각 음성 구간 내의 오디오 정보(즉, 음성 정보)를 음성 인식하여 텍스트화된 음성 정보를 생성할 수 있다. 음성 인식부(425)는 텍스트화된 음성 정보를 자막 보정부(415) 및 장면 선택부(437)로 제공할 수 있다. 상기 음성 인식부(425)에 대한 자세한 설명은 도 10을 참조하여 후술하도록 한다.

이미지정보 생성부(430)는 각 음성 구간에 대응하는 비디오 구간을 검출하고, 상기 비디오 구간에 존재하는 복수의 장면 이미지들 중에서 자막 텍스트 정보 또는 텍스트된 음성 정보와 가장 유사한 장면 이미지(즉, 대표 이미지)를 선택할 수 있다.

이러한 이미지정보 생성부(430)는 영상 컨텐츠의 이미지 정보를 검출하기 위한 비디오 스트림 추출부(또는 영상 추출부, 431), 각 음성 구간에 대응하는 비디오 구간을 검출하기 위한 비디오 구간 검출부(433), 각 비디오 구간 내의 이미지들로부터 태그 정보를 생성하는 이미지 태깅부(435) 및 각 비디오 구간 내의 이미지들 중에서 대표 이미지를 선택하는 장면 선택부(437)를 포함할 수 있다.

비디오 스트림 추출부(431)는 영상 컨텐츠에 포함된 동영상 파일을 기반으로 비디오 스트림을 추출할 수 있다. 여기서, 비디오 스트림은 연속된 영상 프레임들로 구성될 수 있다.

비디오 구간 추출부(433)는 비디오 스트림에서 각 음성 구간에 대응하는 비디오 구간을 검출(분리)할 수 있다. 이는 상대적으로 중요도가 낮은 비디오 구간(즉, 비 음성 구간에 대응하는 비디오 구간)을 제외하여 영상 처리하는데 소요되는 시간과 비용을 줄이기 위함이다.

이미지 태깅부(435)는 각 비디오 구간 내에 존재하는 복수의 이미지들에 대해 영상 인식을 수행하여 이미지 태그 정보를 생성할 수 있다. 즉, 이미지 태깅부(435)는 각 이미지 내의 객체 정보(가령, 사람, 사물, 텍스트 등)를 인식하여 이미지 태그 정보를 생성할 수 있다. 상기 이미지 태깅부(435)에 대한 자세한 설명은 도 11을 참조하여 후술하도록 한다.

장면 선택부(437)는 각 비디오 구간 내에 존재하는 복수의 이미지들 중에서 텍스트화된 음성 정보와 가장 높은 유사도를 갖는 이미지(즉, 대표 이미지)를 선택할 수 있다. 한편, 다른 실시 예로, 장면 선택부(437)는 각 비디오 구간 내에 존재하는 복수의 이미지들 중에서 자막 텍스트 정보와 가장 높은 유사도를 갖는 이미지(즉, 대표 이미지)를 선택할 수도 있다. 상기 장면 선택부(437)에 대한 자세한 설명은 도 12를 참조하여 후술하도록 한다.

장면메타정보 구성부(440)는 자막정보 생성부(410), 오디오정보 생성부(420) 및 이미지정보 생성부(430)로부터 획득한 자막 구간 정보, 음성 구간 정보, 단위 자막 정보, 단위 오디오 정보 및 대표 이미지 정보를 기반으로 재생 구간별 장면메타정보를 구성할 수 있다.

일 예로, 도 8에 도시된 바와 같이, 장면메타정보 구성부(440)는 ID 필드(810), 타임코드 필드(820), 대표 이미지 필드(830), 음성 필드(840), 자막 필드(850) 및 이미지 태그 필드(860)를 포함하는 장면메타정보 프레임(800)을 생성할 수 있다. 이때, 장면메타정보 구성부(440)는 자막 또는 음성 구간들의 개수만큼 장면메타정보 프레임들을 생성할 수 있다.

ID 필드(810)는 재생 구간별 장면메타정보를 식별하기 위한 필드이고, 타임코드 필드(820)는 장면메타정보에 해당하는 자막 구간 또는 음성 구간을 나타내는 필드이다. 좀 더 바람직하게, 타임코드 필드(820)는 장면메타정보에 대응하는 음성 구간을 나타내는 필드이다.

대표 이미지 필드(830)는 음성 구간별 대표 이미지를 나타내는 필드이고, 음성 필드(840)는 음성 구간별 음성(오디오) 정보를 나타내는 필드이다. 그리고, 자막 필드(850)는 자막 구간별 자막 텍스트 정보를 나타내는 필드이고, 이미지 태그 필드(860)는 음성 구간별 이미지 태그 정보를 나타내는 필드이다.

장면메타정보 구성부(440)는 서로 인접한 재생 구간의 장면메타정보들의 대표 이미지가 유사한 경우, 해당 장면메타정보들을 하나의 장면메타정보로 병합할 수 있다. 이때, 상기 장면메타정보 구성부(440)는 미리 결정된 유사도 측정 알고리즘(가령, 코사인 유사도 측정 알고리즘, 유클리안 유사도 측정 알고리즘 등)을 이용하여 장면메타정보들의 이미지 유사 여부를 결정할 수 있다.

이상 상술한 바와 같이, 본 발명에 따른 장면메타정보 생성 장치는 영상 컨텐츠 및/또는 자막 파일을 기반으로 재생 구간별 장면메타정보를 생성할 수 있다. 이러한 장면메타정보는 영상 컨텐츠의 주요 장면을 검색 및 분류하기 위해 사용될 수 있다. 또한, 상기 장면메타정보는 동영상 서비스, 이미지 서비스, 음성 서비스, 비디오 슬라이드 서비스 등을 제공하기 위해 사용될 수 있다.

도 9는 본 발명의 일 실시 예에 따른 음성 구간 분석부의 동작 프로세스를 나타내는 도면이다.

도 9를 참조하면, 본 발명에 따른 음성 구간 분석부(423)는 오디오 스트림(audio stream)을 신호 처리에 적합한 크기를 갖는 복수의 오디오 프레임(audio frame)으로 분할할 수 있다(S910). 이때, 각각의 오디오 프레임은 20ms 내지 30ms의 크기를 가질 수 있다.

음성 구간 분석부(423)는 각 오디오 프레임의 주파수 성분, 피치(pitch) 성분, MFCC(mel-frequency cepstral coefficients) 계수, LPC(linear predictive coding) 계수 등을 분석하여 해당 오디오 프레임의 특징들을 추출할 수 있다(S920).

음성 구간 분석부(423)는 각 오디오 프레임의 특징들과 미리 결정된 음성 모델을 이용하여 각각의 오디오 프레임이 음성 구간인지 여부를 결정할 수 있다(S930). 이때, 상기 음성 모델로는 SVM(support vector machine) 모델, HMM(hidden Markov　model) 모델, GMM(Gaussian mixture model) 모델, RNN(Recurrent Neural Networks) 모델, LSTM(Long Short-Term Memory) 모델 중 적어도 하나가 사용될 수 있으며 반드시 이에 제한되지는 않는다.

음성 구간 분석부(423)는 오디오 프레임별 음성 구간을 결합하여 각 음성 구간의 시작 시점과 종료 시점을 검출할 수 있다(S940). 여기서, 각 음성 구간의 시작 시점은 해당 구간에서 음성 출력이 시작되는 영상 컨텐츠의 재생 시점에 대응하고, 각 음성 구간의 종료 시점은 해당 구간에서 음성 출력이 종료되는 영상 컨텐츠의 재생 시점에 대응한다.

도 10은 본 발명의 일 실시 예에 따른 음성 인식부의 동작 프로세서를 나타내는 도면이다.

도 10을 참조하면, 본 발명에 따른 음성 인식부(425)는 음성 인식(Speech Recognition)을 위한 음향 모델(Acoustic model) 및 언어 모델(Language model)을 구비할 수 있다.

음성 인식부(425)는 음성 데이터베이스(DB)에 저장된 데이터의 특징을 추출하고, 상기 추출된 특징을 일정 기간 동안 학습하여 음향 모델을 구축할 수 있다(S1010).

음성 인식부(425)는 언어 데이터베이스(DB)에 저장된 데이터의 특징을 추출하고, 상기 추출된 특징을 일정 기간 동안 학습하여 언어 모델을 구축할 수 있다(S1020).

음향 모델 및 언어 모델에 대한 구축이 완료되면, 음성 인식부(425)는 음성 구간 단위로 오디오 정보(즉, 음성 정보)를 수신할 수 있다(S1030). 여기서, 음성 정보는 단위 자막에 대응하는 단위 음성 정보이다.

음성 인식부(425)는 음성 정보의 주파수 성분, 피치 성분, 에너지 성분, 제로 크로싱(zero crossing) 성분, MFCC 계수, LPC 계수, PLP(Perceptual Linear Predictive) 계수 등을 분석하여 해당 음성 정보의 특징 벡터들을 검출할 수 있다(S1040).

음성 인식부(425)는 미리 결정된 음향 모델을 이용하여 상기 검출된 특징 벡터들의 패턴을 분류(분석)할 수 있다(S1050). 이때, 음성 인식부(425)는 DTW(Dynamic Time Warping) 알고리즘, HMM(Hidden Markov Model) 알고리즘, ANN(Artificial Neural Network) 알고리즘 등과 같은 공지된 알고리즘을 이용하여 특징 벡터들의 패턴을 분류할 수 있다. 음성 인식부(425)는 이러한 패턴 분류를 통해 음성을 인식하여 하나 이상의 후보 단어들을 검출할 수 있다.

음성 인식부(425)는 미리 결정된 언어 모델을 이용하여 후보 단어들을 문장으로 구성할 수 있다(S1060). 음성 인식부(425)는 문장으로 구성된 텍스트 정보를 출력할 수 있다.

도 11은 본 발명의 일 실시 예에 따른 이미지 태깅부의 동작 프로세스를 나타내는 도면이다.

도 11을 참조하면, 본 발명에 따른 이미지 태깅부(435)는 영상 프레임에 포함된 객체들을 인식하기 위한 영상 인식 모델(Image Recognition model)을 구비할 수 있다.

이미지 태깅부(435)는 영상 데이터베이스(DB)에 저장된 데이터의 기하학적 특징을 추출하고, 상기 추출된 기하학적 특징을 일정 기간 동안 학습하여 영상 인식 모델을 구축할 수 있다(S1110). 상기 영상 인식 모델로는 CNN(Convolution Neutral Network) 모델, RNN(Recurrent Neural Network) 모델, RBM(Restricted Boltzmann Machine) 모델, DBN(Deep Belief Network) 모델 등과 같은 딥러닝(deep learning) 기반의 인공 신경망 모델이 사용될 수 있으며 반드시 이에 제한되지는 않는다.

영상 인식 모델에 대한 구축이 완료되면, 이미지 태깅부(435)는 각 음성 구간에 대응하는 비디오 구간의 영상 프레임들을 순차적으로 수신할 수 있다(S1120).

이미지 태깅부(435)는 각 영상 프레임을 다수의 영역으로 분할하고, 각 영역별로 특징 벡터들을 검출할 수 있다(S1130). 한편, 다른 실시 예로, 이미지 태깅부(435)는 각 영상 프레임을 다수의 영역으로 분할하지 않고, 하나의 영상 프레임 단위로 특징 벡터들을 검출할 수도 있다.

이미지 태깅부(435)는 영상 인식 모델을 이용하여 상기 검출된 특징 벡터들의 패턴을 분류하고, 이를 기반으로 각 영상 프레임에 존재하는 객체들을 인식할 수 있다(S1140).

이미지 태깅부(435)는 각 영상 프레임에 대한 영상 인식 결과를 기반으로 이미지 태그 정보를 생성할 수 있다(S1150). 여기서, 이미지 태그 정보는 각 영상 프레임에 존재하는 모든 객체에 관한 정보를 포함한다.

가령, 도 12에 도시된 바와 같이, 이미지 태깅부(435)는 제1 영상 프레임(1210)에 대한 영상 인식을 통해 제1 이미지 태그 정보(즉, fan, oil, 1220)를 생성할 수 있다. 또한, 이미지 태깅부(435)는 제2 영상 프레임(1230)에 대한 영상 인식을 통해 제2 이미지 태그 정보(즉, person, man, window, 1240)를 생성할 수 있다. 또한, 이미지 태깅부(435)는 제3 영상 프레임(1250)에 대한 영상 인식을 통해 제3 이미지 태그 정보(즉, meat, plate, hand, 1260)를 생성할 수 있다.

도 13은 본 발명의 일 실시 예에 따른 장면 선택부의 동작 프로세스를 나타내는 도면이다.

도 13을 참조하면, 본 발명에 따른 장면 선택부(437)는 각 음성 구간에 대응하는 비디오 구간의 영상 프레임들과, 상기 영상 프레임들에 대응하는 이미지 태그 정보들을 수신할 수 있다(S1310).

장면 선택부(437)는 음성정보 생성부(420)로부터 음성 구간별 텍스트화된 음성 정보를 수신할 수 있다(S1320).

장면 선택부(437)는 미리 결정된 워드 임베딩 모델(Word Embedding Model)을 이용하여 텍스트화된 음성 정보와 복수의 이미지 태그 정보를 벡터 정보(또는 벡터 값)로 변환할 수 있다(S1330). 여기서, 워드 임베딩(Word Embedding)이란 하나의 단어를 인공 신경망을 이용하여 벡터 공간상에 나타낼 수 있는 변환된 값을 의미한다. 가령, 아래 수학식 1과 같이, "cat"이나 "mat"와 같은 단어를 특정 차원의 벡터로 변경할 수 있다.

본 실시 예에서 사용 가능한 워드 임베딩 모델로는 NNLM(Neural Net Language Model) 모델, RNNLM(Recurrent Neural Net Language Model) 모델 등과 같은 인공 신경망 모델이 사용될 수 있으며, 좀 더 바람직하게는 Word2Vec 모델이 사용될 수 있다.

Word2Vec 모델은 Neural Net 기반의 학습 방법에 비해 크게 달라진 것은 아니지만, 계산량을 엄청나게 줄여서 기존의 방법에 비해 몇 배 이상 빠른 학습을 수행할 수 있다. 상기 Word2Vec 모델은 언어(즉, 단어)를 학습시키기 위한 네트워크 모델로 CBOW(Continuous Bag-of-Words) 모델과 Skip-gram 모델을 제공하고 있다.

장면 선택부(437)는 미리 결정된 유사도 측정 기법을 이용하여 이미지 태그 정보에 대응하는 제1 벡터 정보와 텍스트화된 음성 정보에 대응하는 제2 벡터 정보 간의 유사도를 측정할 수 있다(S1340). 상기 유사도 측정 기법으로는 코사인 유사도(cosine similarity) 측정 기법, 유클리디안 유사도(Euclidean similarity) 측정 기법, 자카드 계수를 이용한 유사도 측정 기법, 피어슨 상관계수를 이용한 유사도 측정 기법, 맨하튼 거리를 이용한 유사도 측정 기법 중 적어도 하나가 사용될 수 있으며 반드시 이에 제한되지는 않는다.

장면 선택부(437)는 텍스트화된 음성 정보를 기준으로 각 비디오 구간의 영상 프레임들에 대응하는 복수의 이미지 태그 정보들에 대해 유사도 측정을 순차적으로 수행할 수 있다.

장면 선택부(437)는, 각 비디오 구간의 영상 프레임들 중에서, 텍스트화된 음성 정보와 가장 유사도가 높은 이미지 태그 정보에 대응하는 영상 프레임을 해당 구간의 대표 이미지로 선택할 수 있다(S1350).

예를 들어, 도 14에 도시된 바와 같이, 장면 선택부(437)는 제1 영상 프레임(1410)에 대응하는 제1 이미지 태그 정보(1420)와 텍스트화된 음성 정보(1490) 간의 유사도(A)를 측정할 수 있다. 또한, 장면 선택부(437)는 제2 영상 프레임(1430)에 대응하는 제2 이미지 태그 정보(1440)와 텍스트화된 음성 정보(1490) 간의 유사도(B)를 측정할 수 있다. 또한, 장면 선택부(437)는 제3 영상 프레임(1450)에 대응하는 제3 이미지 태그 정보(1460)와 텍스트화된 음성 정보(1490) 간의 유사도(C)를 측정할 수 있다. 또한, 장면 선택부(437)는 제4 영상 프레임(1470)에 대응하는 제4 이미지 태그 정보(1480)와 텍스트화된 음성 정보(1490) 간의 유사도(D)를 측정할 수 있다.

상기 유사도 측정 결과, 제2 이미지 태그 정보(1440)와 텍스트화된 음성 정보(1490) 간의 유사도(B)가 가장 높기 때문에, 장면 선택부(437)는 제2 이미지 태그 정보(1440)에 대응하는 제2 영상 프레임(1430)을 해당 구간의 대표 이미지로 선택할 수 있다.

한편, 본 실시 예에서는, 이미지 태그 정보와의 유사도 비교 대상이 텍스트화된 음성 정보임을 예시하고 있으나 이를 제한하지는 않으며, 상기 텍스트화된 음성 정보 대신 자막 텍스트 정보를 사용할 수 있음은 당업자에게 자명할 것이다.

도 15는 본 발명의 다른 실시 예에 따른 장면메타정보 생성 장치의 구성을 도시하는 블록도이다.

도 15를 참조하면, 본 발명의 다른 실시 예에 따른 장면메타정보 생성 장치(1500)는 자막정보 생성부(1510), 오디오정보 생성부(1520), 이미지정보 생성부(1530) 및 장면메타정보 구성부(1540)를 포함할 수 있다. 도 15에 도시된 구성요소들은 장면메타정보 생성 장치(1500)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서상에서 설명되는 장면메타정보 생성 장치는 위에서 열거된 구성요소들보다 많거나, 또는 적은 구성요소들을 가질 수 있다.

본 발명에 따른 장면메타정보 생성 장치(1500)는 서버(200)의 장면메타정보 생성부(230)를 통해 구현되거나 혹은 사용자 단말(300)의 제어부(350)를 통해 구현될 수 있다. 또한, 장면메타정보 생성 장치(1500)는 서버(200) 및 사용자 단말(300)과 독립적인 하드웨어 및/또는 소프트웨어를 통해 구현될 수도 있다.

본 발명에 따른 장면메타정보 생성 장치(1500)는, 도 4의 장면메타정보 생성 장치(400)와 달리, 영상 컨텐츠에서 추출된 오디오 정보를 음성 인식하여 새로운 자막 정보를 생성할 수 있다. 이러한 장면메타정보 생성 장치(1500)는 영상 컨텐츠만이 존재하는 경우(즉, 별도의 자막 파일이 존재하지 않는 경우)에 특히 유용하다.

본 발명에 따른 자막정보 생성부(1510)는 음성 인식부(1525)로부터 수신된 텍스화된 음성 정보를 기반으로 새로운 자막 정보를 생성하고, 상기 자막 정보를 장면메타정보 구성부(1540)로 제공할 수 있다.

한편, 상기 자막정보 생성부(1510)를 제외한 오디오정보 생성부(1520), 이미지정보 생성부(1530) 및 장면메타정보 구성부(1540)는 도 4에 도시된 오디오정보 생성부(420), 이미지정보 생성부(430) 및 장면메타정보 구성부(440)과 동일 또는 유사하므로 이에 대한 자세한 설명은 생략하도록 한다.

도 16은 본 발명의 일 실시 예에 따른 자막 보정 장치의 구성을 도시하는 블록도이다.

도 16을 참조하면, 본 발명의 일 실시 예에 따른 자막 보정 장치(1600)는 자막 검출부(1610), 오디오 검출부(1620), 음성 구간 분석부(1630), 음성 인식부(1460) 및 자막 보정부(1650)를 포함할 수 있다. 도 16에 도시된 구성요소들은 자막 보정 장치(1600)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서상에서 설명되는 자막 보정 장치는 위에서 열거된 구성요소들보다 많거나, 또는 적은 구성요소들을 가질 수 있다.

본 발명에 따른 자막 보정 장치(1600)는 서버(200)의 제어부(250)를 통해 구현되거나 혹은 사용자 단말(300)의 제어부(350)를 통해 구현될 수 있다. 또한, 자막 보정 장치(1600)는 서버(200) 및 사용자 단말(300)과 독립적인 하드웨어 및/또는 소프트웨어를 통해 구현될 수 있다.

자막 검출부(1610)는 영상 컨텐츠에 포함된 자막 파일을 기반으로 자막 정보를 추출할 수 있다. 한편, 다른 실시 예로, 자막 검출부(1610)는 영상 컨텐츠와 별도로 저장된 자막 파일을 기반으로 자막 정보를 추출할 수도 있다. 여기서, 자막 정보는 자막 텍스트 정보와 자막 구간 정보를 포함할 수 있다.

자막 검출부(1610)는 영상 컨텐츠의 전체 자막을 복수의 단위 자막으로 분류하고, 각 단위 자막 별로 자막 텍스트 정보를 검출할 수 있다. 또한, 자막 검출부(1610)는 영상 컨텐츠의 재생 구간 중 각 단위 자막이 표시되는 자막 구간을 검출할 수 있다.

오디오 검출부(1620)는 영상 컨텐츠에 포함된 오디오 파일을 기반으로 오디오 스트림을 추출하고, 상기 오디오 스트림을 신호 처리에 적합한 복수의 오디오 프레임으로 분할할 수 있다.

음성 구간 분석부(1630)는 오디오 프레임의 특징들을 기반으로 영상 컨텐츠의 음성 구간들을 추출할 수 있다. 상기 음성 구간 분석부(1630)의 동작은, 상술한 도 4의 음성 구간 분석부(423)의 동작과 동일 또는 유사하므로 이에 대한 자세한 설명은 생략하도록 한다.

음성 인식부(1640)는 각 음성 구간 내의 오디오 정보(즉, 음성 정보)에 대해 음성 인식을 수행할 수 있다. 상기 음성 인식부(1640)의 동작은, 상술한 도 4의 음성 인식부(425)의 동작과 동일 또는 유사하므로 이에 대한 자세한 설명은 생략하도록 한다.

자막 보정부(1650)는 영상 컨텐츠의 오디오 정보를 통해 분석된 음성 구간들에 따라 각 단위 자막의 자막 구간을 보정할 수 있다. 또한, 자막 보정부(1650)는 비 음성 구간에 존재하는 불필요한 자막을 삭제할 수 있다.

자막 보정부(1650)는 각 음성 구간 내의 오디오 정보를 이용하여 각 단위 자막의 텍스트 정보를 보정할 수 있다. 또한, 자막 보정부(1650)는 각 음성 구간 내의 오디오 정보를 이용하여 하나의 단위 자막을 둘 이상의 단위 자막으로 분할할 수 있다. 또한, 자막 보정부(1650)는 각 음성 구간 내의 오디오 정보를 이용하여 둘 이상의 단위 자막을 하나의 단위 자막으로 병합할 수 있다.

도 17은 본 발명의 일 실시 예에 따른 자막 보정 방법을 설명하는 순서도이다.

도 17을 참조하면, 본 발명에 따른 자막 보정 장치(1600)는 영상 컨텐츠에 포함된 자막 파일 또는 상기 영상 컨텐츠와 별도로 저장된 자막 파일을 기반으로 자막 텍스트 정보를 검출할 수 있다(S1710). 이때, 상기 자막 보정 장치(1600)는 영상 컨텐츠의 전체 자막을 복수의 단위 자막으로 분류하고, 각 단위 자막 별로 자막 텍스트 정보를 검출할 수 있다.

자막 보정 장치(1600)는 영상 컨텐츠의 재생 구간 중 각 단위 자막이 표시되는 자막 구간을 검출할 수 있다(S1720). 여기서, 자막 구간은 자막 시작 시간 정보, 자막 종료 시간 정보 및 자막 표시 시간 정보를 포함할 수 있다.

자막 보정 장치(1600)는 영상 컨텐츠에 포함된 오디오 파일을 기반으로 오디오 스트림을 추출하고, 상기 오디오 스트림을 신호 처리에 적합한 복수의 오디오 프레임으로 분할할 수 있다(S1730).

자막 보정 장치(1600)는 오디오 프레임의 특징들을 추출하여 각 음성 구간의 시작 시점과 종료 시점을 추출할 수 있다(S1740). 여기서, 각 음성 구간의 시작 시점은 해당 구간에서 음성 출력이 시작되는 영상 컨텐츠의 재생 시점에 대응하고, 각 음성 구간의 종료 시점은 해당 구간에서 음성 출력이 종료되는 영상 컨텐츠의 재생 시점에 대응한다.

자막 보정 장치(1600)는 각 음성 구간 내의 오디오 정보(즉, 음성 정보)에 대해 음성 인식을 수행하여 텍스트화된 음성 정보를 생성할 수 있다(S1750).

자막 보정 장치(1600)는 영상 컨텐츠의 오디오 정보를 통해 분석된 음성 구간들에 따라 각 단위 자막의 자막 구간을 보정할 수 있다. 또한, 자막 보정부(1650)는 비 음성 구간에 존재하는 불필요한 자막을 삭제할 수 있다.

자막 보정부(1650)는 각 음성 구간 내의 오디오 정보를 음성 인식하여 각 단위 자막의 텍스트 정보를 보정할 수 있다. 또한, 자막 보정부(1650)는 각 음성 구간 내의 오디오 정보를 음성 인식하여 하나의 단위 자막을 둘 이상의 단위 자막으로 분할할 수 있다. 또한, 자막 보정부(1650)는 각 음성 구간 내의 오디오 정보를 음성 인식하여 둘 이상의 단위 자막을 하나의 단위 자막으로 병합할 수 있다.

이상 상술한 바와 같이, 본 발명에 따른 자막 보정 방법은 자막 구간을 음성 구간에 맞춰 보정함으로써, 자막 구간과 음성 구간의 불일치로 인한 음성의 잘림 현상을 방지할 수 있다. 또한, 상기 자막 보정 방법은 자막을 음성 구간에 맞춰 분할 또는 병합함으로써, 시청자가 읽기 좋은 길이의 자막으로 개선하여 사용자의 가독성을 향상시킬 수 있다.

도 18은 장면메타정보를 활용하여 비디오 슬라이드 서비스를 제공하는 사용자 단말을 예시하는 도면이다.

도 18을 참조하면, 본 발명에 따른 사용자 단말(300)은 영상 컨텐츠 및/또는 자막 파일을 기반으로 동영상 재생 서비스를 제공할 수 있다. 또한, 사용자 단말(300)은 영상 컨텐츠에 관한 장면메타정보를 활용하여 복수의 페이지 정보를 생성하고, 이를 기반으로 비디오 슬라이드 서비스를 제공할 수 있다. 상기 비디오 슬라이드 서비스는 동영상 재생 서비스의 부가 서비스 형태로 제공될 수 있다.

사용자 단말(300)은, 시청자의 제어 명령에 따라, 비디오 슬라이드 모드로 진입할 수 있다. 사용자 단말(300)은, 비디오 슬라이드 모드 진입 시, 미리 결정된 페이지 화면(1800)을 디스플레이부에 표시할 수 있다. 이때, 상기 페이지 화면(1800)은 기능 메뉴 영역(1810), 자막 표시 영역(1820), 스크롤 영역(1830) 및 이미지 표시 영역(1840) 등을 포함할 수 있으며 반드시 이에 제한되지는 않는다.

기능 메뉴 영역(1810)은 비디오 슬라이드 서비스와 관련된 기능들을 실행하기 위한 복수의 메뉴들을 포함할 수 있다. 가령, 상기 기능 메뉴 영역(1810)에는 사용자로부터 영상 전환 요청을 받기 위한 제1 기능 메뉴(1811), 사용자로부터 재생 옵션 제어를 받기 위한 제2 기능 메뉴(1812), 페이지에서 출력되는 오디오 정보의 재생/정지 요청을 받기 위한 재생/정지 기능 메뉴(1813), 사용자로부터 화면 분할 요청을 받기 위한 제3 기능 메뉴(1814), 사용자로부터 자막 검색 또는 번역 요청을 받기 위한 제4 기능 메뉴(1815) 등이 있다.

자막 표시 영역(1820)은 현재 페이지에 대응하는 자막 텍스트 정보를 포함할 수 있다. 이미지 표시 영역(1840)은 현재 페이지에 대응하는 대표 이미지를 포함할 수 있다.

스크롤 영역(1830)은 현재 페이지를 기준으로 이전 및 이후에 존재하는 복수의 페이지들에 대응하는 복수의 썸네일 이미지들을 포함할 수 있다. 상기 복수의 썸네일 이미지들은 복수의 페이지들에 대응하는 대표 이미지들을 미리 결정된 크기로 축소한 이미지들이다. 상기 복수의 썸네일 이미지들은 영상 컨텐츠의 재생 순서에 따라 순차적으로 배열될 수 있다.

현재 페이지의 썸네일 이미지는 스크롤 영역(1830)의 중앙부(1831)에 위치할 수 있다. 즉, 스크롤 영역(1830)의 중앙부(1831)에는 현재 시청자가 보고 있는 페이지가 위치할 수 있다. 시청자는 스크롤 영역(1830)에 위치한 썸네일 이미지들 중 어느 하나를 선택함으로써 해당 썸네일 이미지에 대응하는 페이지로 바로 이동할 수 있다.

사용자 단말(300)은 시청자의 페이지 이동 요청에 대응하여 현재 페이지와 인접한 순서의 타임코드를 갖는 페이지로 이동하고, 상기 이동된 페이지를 디스플레이부에 표시할 수 있다. 상기 페이지 이동 요청은 사용자가 디스플레이부의 일부 영역을 선택하거나 혹은 어느 일 지점에서 다른 지점으로 스크롤 함으로써 이루어질 수 있다.

사용자 단말(300)은 시청자의 영상 전환 요청에 대응하여 현재 페이지의 타임코드에 대응하는 시점부터 영상 컨텐츠를 재생할 수 있다. 예를 들어, 제1 기능 메뉴(1811)가 선택되면, 사용자 단말(300)은 현재 페이지의 자막 구간 시작 시점(또는 음성 구간 시작 시점)부터 영상 컨텐츠를 재생할 수 있다.

한편, 영상 컨텐츠가 재생 중인 상태에서, 사용자 단말(300)은 페이지 전환 요청에 대응하여 현재의 재생 시점 또는 현재의 재생 시점보다 앞선 재생 시점에 대응되는 페이지를 디스플레이부에 표시할 수 있다.

사용자 단말(300)은 시청자의 재생 옵션 제어 요청에 대응하여 오디오 정보의 출력 방법을 제어할 수 있다. 가령, 사용자 단말(300)은 재생 옵션 제어 요청에 대응하여 현재 페이지의 오디오 정보를 반복 출력하는 제1 재생 모드, 현재 페이지의 오디오 정보가 출력된 후 오디오 정보의 출력을 정지하는 제2 재생 모드, 현재 페이지의 오디오 정보가 출력된 후 현재 페이지의 다음 페이지로 이동하고, 이동된 페이지를 표시하는 제3 재생 모드 중 어느 하나의 재생 모드를 수행할 수 있다.

사용자 단말(300)은, 시청자의 화면 분할 요청에 대응하여, 디스플레이부의 표시 화면을 미리 결정된 개수로 분할하고, 상기 분할된 화면에 복수의 페이지를 표시할 수 있다.

사용자 단말(300)은, 시청자의 재생/정지 요청에 대응하여, 현재 페이지에서 출력되는 오디오 정보를 재생하거나 정지할 수 있다. 또한, 사용자 단말(300)은, 시청자의 자막 검색 요청에 대응하여, 복수의 페이지들에 대응하는 자막들을 검색하고, 그 검색 결과를 디스플레이부에 표시할 수 있다.

사용자 단말(300)은, 시청자의 자막 번역 요청에 대응하여, 현재 페이지에 해당하는 자막을 번역하고, 그 번역 결과를 디스플레이(210)에 표시할 수 있다. 사용자 단말(300)은 번역 요청된 자막을 연동된 내부 번역 프로그램이나 외부의 번역 프로그램에 해당 자막에 대한 번역을 요청하고 번역된 결과를 디스플레이부에 제공할 수 있다.

이처럼, 사용자 단말(300)은 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 활용하여 동영상을 책처럼 페이지 단위로 시청할 수 있는 비디오 슬라이드 서비스를 제공할 수 있다.

도 19는 장면메타정보를 활용하여 비디오 검색 서비스를 제공하는 사용자 단말을 예시하는 도면이다.

도 19를 참조하면, 본 발명에 따른 사용자 단말(300)은 영상 컨텐츠 및/또는 자막 파일을 기반으로 동영상 재생 서비스를 제공할 수 있다. 또한, 사용자 단말(300)은 영상 컨텐츠에 관한 장면메타정보를 활용하여 비디오 검색 서비스를 제공할 수 있다. 상기 비디오 검색 서비스는 동영상 재생 서비스의 부가 서비스 형태로 제공될 수 있다.

사용자 단말(300)은, 시청자의 제어 명령에 따라, 비디오 검색 모드로 진입할 수 있다. 사용자 단말(300)은, 비디오 검색 모드 진입 시, 미리 결정된 장면 검색 화면(1900)을 디스플레이부에 표시할 수 있다.

장면 검색 화면(1800)은, 검색어 입력 영역(1910) 및 검색 장면 표시 영역(1920)을 포함할 수 있다. 상기 검색어 입력 영역(1910)은 시청자가 탐색하고자 하는 영상 컨텐츠의 장면을 설명하는 검색어를 입력하기 위한 영역이고, 검색 장면 표시 영역(1920)은 영상 컨텐츠에 포함된 장면들 중에서 검색어와 매칭되는 장면을 표시하기 위한 영역이다.

검색어 입력 영역(1910)을 통해 소정의 검색어(가령, "비밀의 숲에서 남자 주인공이 타던 자동차는?")가 입력된 경우, 사용자 단말(300)은 데이터베이스에 저장된 장면메타정보들 중에서 상기 입력된 검색어와 매칭되는 장면메타정보를 검색할 수 있다.

사용자 단말(300)은 검색된 장면메타정보에 대응하는 대표 이미지를 장면 검색 화면(1800)에 표시할 수 있다. 또한, 사용자 단말(300)은 대표 이미지 중에서 검색어와 관련된 객체들을 지시하는 인디케이터들(1921, 1923)을 디스플레이부에 표시할 수 있다.

이처럼, 사용자 단말(300)은 영상 컨텐츠에 관한 재생 구간별 장면메타정보를 활용하여 원하는 장면을 빠르게 탐색할 수 있는 비디오 검색 서비스를 제공할 수 있다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

10: 컨텐츠 제공 시스템 100: 통신 네트워크
200: 서버 300: 사용자 단말
400: 장면메타정보 생성 장치 410: 자막정보 생성부
420: 오디오정보 생성부 430: 이미지정보 생성부
440: 장면메타정보 구성부

Claims

영상 컨텐츠와 관련된 자막 파일을 기반으로 복수의 단위 자막들을 검출하고, 상기 복수의 단위 자막들을 보정하는 자막정보 생성부;
상기 영상 컨텐츠로부터 오디오 정보를 추출하고, 상기 오디오 정보를 기반으로 복수의 음성 구간들을 검출하며, 각 음성 구간 내의 오디오 정보에 대해 음성 인식을 수행하는 오디오정보 생성부; 및
각 음성 구간에 대응하는 비디오 구간을 검출하고, 상기 비디오 구간 내의 영상 프레임들에 대해 영상 인식을 수행하며, 상기 영상 프레임들 중에서 대표 이미지를 선택하는 이미지정보 생성부를 포함하는 장면메타정보 생성 장치.
제1항에 있어서,
상기 자막정보 생성부는, 상기 영상 컨텐츠와 관련된 단위 자막들을 검출하기 위한 자막 추출부, 상기 단위 자막들의 자막 구간을 검출하기 위한 자막 구간 검출부 및 상기 단위 자막들을 보정하기 위한 자막 보정부를 포함하는 것을 특징으로 하는 장면메타정보 생성 장치.
제2항에 있어서,
상기 자막 보정부는, 상기 오디오 정보를 통해 검출된 음성 구간들을 기반으로 상기 단위 자막들의 자막 구간을 보정하는 것을 특징으로 하는 장면메타정보 생성 장치.
제2항에 있어서,
상기 자막 보정부는, 각 음성 구간 내의 오디오 정보에 대한 음성 인식 결과를 기반으로, 상기 단위 자막들의 자막 텍스트 정보를 보정하는 것을 특징으로 하는 장면메타정보 생성 장치.
제2항에 있어서,
상기 자막 보정부는, 각 음성 구간 내의 오디오 정보에 대한 음성 인식 결과를 기반으로, 하나의 단위 자막을 둘 이상의 단위 자막으로 분할하거나 혹은 둘 이상의 단위 자막을 하나의 단위 자막으로 병합하는 것을 특징으로 하는 장면메타정보 생성 장치.
제1항에 있어서,
상기 오디오정보 생성부는, 상기 영상 컨텐츠로부터 오디오 정보를 추출하기 위한 오디오 추출부, 상기 영상 컨텐츠의 음성 구간들을 검출하기 위한 음성 구간 분석부 및 각 음성 구간 내의 오디오 정보에 대해 음성 인식을 수행하기 위한 음성 인식부를 포함하는 것을 특징으로 하는 장면메타정보 생성 장치.
제6항에 있어서,
상기 음성 구간 분석부는, 오디오 스트림(audio stream)을 신호 처리에 적합한 크기를 갖는 복수의 오디오 프레임들(audio frames)로 분할하고, 상기 오디오 프레임들의 특성을 추출하여 각 음성 구간의 시작 시점과 종료 시점을 검출하는 것을 특징으로 하는 장면메타정보 생성 장치.
제6항에 있어서,
상기 음성 인식부는, 각 음성 구간에 대응하는 오디오 정보의 특징 벡터들을 검출하고, 상기 특징 벡터들의 패턴 분석을 통해 음성 인식을 수행하는 것을 특징으로 하는 장면메타정보 생성 장치.
제1항에 있어서,
상기 이미지정보 생성부는, 상기 영상 컨텐츠를 구성하는 이미지들을 검출하기 위한 영상 추출부, 각 음성 구간에 대응하는 비디오 구간을 검출하기 위한 비디오 구간 검출부, 상기 비디오 구간 내의 이미지들에 관한 이미지 태그 정보를 생성하는 이미지 태깅부 및 상기 비디오 구간의 대표 이미지를 선택하는 장면 선택부를 포함하는 것을 특징으로 하는 장면메타정보 생성 장치.
제9항에 있어서,
상기 이미지 태깅부는, 각 비디오 구간 내에 존재하는 복수의 이미지들에 대해 영상 인식을 수행하여, 상기 복수의 이미지들 각각에 대한 이미지 태그 정보를 생성하는 것을 특징으로 하는 장면메타정보 생성 장치.
제9항에 있어서,
상기 장면 선택부는, 미리 결정된 워드 임베딩 모델(Word Embedding Model)을 이용하여 각 음성 구간에 해당하는 텍스트화된 음성 정보와 각 비디오 구간에 해당하는 이미지 태그 정보를 벡터 정보로 변환하는 것을 특징으로 하는 장면메타정보 생성 장치.
제11항에 있어서,
상기 워드 임베딩 모델은 Word2Vec 모델임을 특징으로 하는 장면메타정보 생성 장치.
제11항에 있어서,
상기 장면 선택부는, 미리 결정된 유사도 측정 기법을 이용하여 상기 이미지 태그 정보에 대응하는 제1 벡터 정보와 상기 텍스트화된 음성 정보에 대응하는 제2 벡터 정보 간의 유사도를 측정하는 것을 특징으로 하는 장면메타정보 생성 장치.
제13항에 있어서,
상기 유사도 측정 기법은, 코사인 유사도(cosine similarity) 측정 기법, 유클리디안 유사도(Euclidean similarity) 측정 기법, 자카드 계수를 이용한 유사도 측정 기법, 피어슨 상관계수를 이용한 유사도 측정 기법 및 맨하튼 거리를 이용한 유사도 측정 기법 중 적어도 하나를 포함하는 것을 특징으로 하는 장면메타정보 생성 장치.
제13항에 있어서,
상기 장면 선택부는, 각 비디오 구간 내의 이미지들 중에서, 상기 텍스트화된 음성 정보와 가장 유사도가 높은 이미지 태그 정보에 대응하는 이미지를 해당 구간의 대표 이미지로 선택하는 것을 특징으로 하는 장면메타정보 생성 장치.
제1항에 있어서,
상기 자막정보 생성부로부터 수신한 자막 정보, 상기 오디오정보 생성부로부터 수신한 오디오 정보 및 상기 이미지정보 생성부로부터 수신한 대표 이미지 정보를 기반으로 장면메타정보를 생성하는 장면메타정보 구성부를 더 포함하는 장면메타정보 생성 장치.
제16항에 있어서,
상기 장면메타정보의 프레임은, 장면메타정보를 식별하기 위한 ID 필드, 자막 구간 또는 음성 구간을 나타내는 타임코드 필드, 대표 이미지를 나타내는 대표 이미지 필드, 음성 정보를 나타내는 음성 필드, 자막 정보를 나타내는 자막 필드 및 이미지 태그 정보를 나타내는 이미지 태그 필드 중 적어도 하나를 포함하는 것을 특징으로 하는 장면메타정보 생성 장치.
제16항에 있어서,
상기 장면메타정보 구성부는, 장면메타정보들의 대표 이미지가 유사한 경우, 상기 장면메타정보들을 하나의 장면메타정보로 병합하는 것을 특징으로 하는 장면메타정보 생성 장치.
영상 컨텐츠와 관련된 자막 파일을 기반으로 자막 정보를 검출하는 단계;
상기 영상 컨텐츠로부터 오디오 정보를 추출하고, 상기 오디오 정보를 기반으로 복수의 음성 구간들을 검출하는 단계;
각 음성 구간 내의 오디오 정보에 대한 음성 인식 결과를 기반으로 상기 자막 정보를 보정하는 단계; 및
각 음성 구간에 대응하는 비디오 구간을 검출하고, 상기 비디오 구간 내의 영상 프레임들에 대한 영상 인식 결과를 기반으로 대표 이미지를 선택하는 단계를 포함하는 장면메타정보 생성 방법.
영상 컨텐츠로부터 오디오 정보를 추출하고, 상기 오디오 정보를 기반으로 복수의 음성 구간들을 검출하며, 각 음성 구간 내의 오디오 정보에 대해 음성 인식을 수행하는 오디오정보 생성부;
각 음성 구간 내의 오디오 정보에 대한 음성 인식 결과를 기반으로 자막 정보를 생성하는 자막정보 생성부; 및
각 음성 구간에 대응하는 비디오 구간을 검출하고, 상기 비디오 구간 내의 영상 프레임들에 대해 영상 인식을 수행하며, 상기 영상 프레임들 중에서 대표 이미지를 선택하는 이미지정보 생성부를 포함하는 장면메타정보 생성 장치.