KR100436828B1

KR100436828B1 - 주문형 동영상 요약 서비스 시스템

Info

Publication number: KR100436828B1
Application number: KR10-2001-0062170A
Authority: KR
Inventors: 하명환; 정병희; 김경수; 이범구; 낭종호
Original assignee: 한국방송공사
Priority date: 2001-10-09
Filing date: 2001-10-09
Publication date: 2004-06-23
Also published as: KR20030030304A

Abstract

본 발명은 주문형 동영상 요약 서비스 시스템에 관한 것으로 특히, 요약하고자 하는 다양한 동영상을 저장하는 하드디스크인 동영상 저장부(1)와; 시청자가 주문형 비디오 시스템에 요구하고 스트리밍되는 동영상을 재생하는 클라이언트(2)와; 클라이언트에 웹 페이지와 동영상을 전달하는 웹서버 및 스트리밍 서버(3)와; 동영상에서 샷 경계를 검출하고 샷들의 유사도를 고려하여 씬 경계를 검출하고 필요에 따라 검출 결과를 수동으로 보완하는 자동 인덱싱부(41)와; 동영상에 대한 메타데이터(예를 들면 제목, 생성 연월일, 주인공, 방영 일자 등)와 고급 수준 내용 정보(상황, 시간, 장소, 사건 등)를 입력하는 내용정보 입력부(42)와; 이렇게 생성된 관련 정보를 저장하는 데이터베이스(43)와; 사용자의 요구를 분석한 후, 데이터베이스로부터 필요한 정보를 읽어 와서 요약에 사용될 샷 집합을 생성하는 요약 샷 집합 생성부(44)와; 요약 샷 집합 생성부의 결과로 나온 샷 집합 정보를 이용하여 원본 동영상에서 필요한 부분만을 추출하여 짧은 요약 동영상을 생성하는 동영상 컷 편집부(45)로 구성된 주문형 동영상 요약부(4)로 구성된 주문형 동영상 요약 서비스 시스템에 있어서,

상기 자동 인덱싱부는 스트리밍 미디어 파일 내의 샷 경계 지점마다 있는 키프레임의 위치를 검색하는 키프레임 추출부(411)와; 키프레임 단위로 밝기 차를 계산하여 샷/신 경계를 검출하는 샷/신 경계 검출부(412)로 구성하고,

상기 요약 샷 집합 생성부(44)는 사용자의 요구를 분석한 후 목적 함수에 사용되는 요약의 길이와 목적함수의 가중치를 설정하는 가중치 설정부(441)와; 데이터베이스에 저장된 동영상의 피쳐와 메타데이터, 고급 수준 내용 정보로 목적함수를 계산하고 각각을 정규화하며 설정된 가중치에 의해 특정 샷 리스트의 최종 목적함수 값을 계산하는 목적함수 계산부(442)와; 목적 함수들의 가중치를 합한 값을 극대화할 수 있는 샷 집합을 빠른 시간에 찾을 수 있는 최적 샷 집합 탐색부(443)로 구성하여 다양한 동영상에 대하여 시청자의 요구(상영시간 및 형식)에 맞추어서 요약 동영상을 즉시 생성하여 개인에 특화된 주문형 동영상 요약 서비스를 할 수 있도록 한 것이다.

Description

주문형 동영상 요약 서비스 시스템{Video-on-demand service compression system}

본 발명은 주문형 동영상 요약 서비스 시스템에 관한 것으로, 더욱 상세히는 네트워크를 사용하는 주문형 비디오 시스템(Video On Demand : VOD)에서 전체 프로그램 동영상을 상영하여 보지 않고도, 그 내용을 미리 알 수 있도록 하는 동영상 요약 서비스 시스템을 구현함에 있어서, 시청자의 요구(상영시간 및 형식)에 맞추어서 요약 동영상을 즉시 생성하여 서비스할 수 있도록 발명된 것이다.

현재 인터넷 방송국 등에서 사용 중인 주문형 비디오 시스템은 방영된 프로그램에 대한 동영상 전체를 스트리밍 서비스하고 있기 때문에 시청자들이 방영된 프로그램의 내용을 알기 위하여서는 전체 동영상을 수신하면서 상영하여 보아야 한다는 문제점을 가지고 있다.

이러한 문제점은 시청자에게 전체 프로그램 동영상을 상영하여 보지 않고도 그 내용을 알 수 있도록 하는(프리뷰) 요약 동영상을 생성하고 서비스함으로써 해결할 수 있다.

그러나, 이런 동영상에 대한 요약은 시청자 및 편집자의 주관적인 목적에 따라 다양한 형태가 있을 수 있으며, 따라서, 방송국에서 일률적으로 제작한 요약본은 모든 시청자의 다양한 요구 사항을 충분히 만족시키지 못한다. 즉, 어떤 시청자는 프로그램 전체의 줄거리를 이해하기 위해 요약본을 시청하기도 하고, 어떤 시청자는 흥미 위주의 다이내믹한 요약본을 원할 수도 있다. 이런 문제를 해결하기 위하여서는 시청자의 다양한 요구에 맞추어서 요약 동영상을 즉시 생성하여 서비스하는 주문형 동영상 요약 서비스가 필요하다.

도 2는 동영상의 계층적 구조를 나타낸 것이며, 기본적인 단위인 프레임과 여러 개의 연속적인 프레임이 모여 샷을 이루고, 여러 개의 샷이 서로간의 의미적인 관계에 의해 모여서 하나의 신이 되고, 이들 신이 모여 하나의 동영상을 구성하게 된다. 이런 동영상에 대한 요약을 만든다는 것은 동영상을 이루는 여러 샷들 중에서 중요한 샷 집합을 선택하여 짧은 길이의 동영상을 만드는 것을 의미한다. 비디오 요약의 기존의 방법에는 전제적인 구성을 이용한 방법과 히스토그램을 이용하는 방법과 움직임 에너지를 이용하는 방법 등이 있다.

전체적인 구성을 이용하는 방법은 우선 비디오 데이터를 도 3과 같이 프레임으로부터 샷으로 묶고, 이러한 샷을 바탕으로 신으로 그룹화 한다. 신으로부터 색 정보와 움직임 정보의 추출, 오브젝트 인식 등을 수행하여 각각의 데이터를 미리 정해진 특성과 관련 있는 이벤트로 매핑한다. 비디오의 주요 장면의 얼굴 인식을 통한 인물의 등장과 짧은 샷들의 반복적인 특성을 이용하여 대화장면을 인식하고, 오디오 정보의 크기, 주파수, 음의 고저들을 고려하여 총 소리와 폭발 소리 등을 미리 계산되어진 데이터베이스 내의 정보와 비교하여 전체적으로 비슷한 색 구성을 하고 있는 비디오 클립을 검출한다. 이후 이러한 클립을 바탕으로 편집하여 하나의 요약된 비디오를 만든다.

컬러 히스토그램을 이용한 방법은 도 4와 같이 프레임과 프레임 사이의 거리를 컬러 히스토그램의 차이로 구한 후, 이러한 프레임들을 컬러 히스토그램의 차이가 가장 적은 집합을 Semi-Hausdorff Distance를 이용하여 뽑게 된다. 이렇게 뽑힌 프레임은 그 프레임이 속해 있던 집합을 대표하게 되고, 다시 이러한 프레임들 끼리 Semi-Hausdorff Distance가 가장 적은 프레임의 집합을 뽑아 올라가면 나중에는 하나의 프레임이 남게 되고, 이 프레임이 이 비디오의 대표가 되는 프레임이라 할 수 있다. 이 방법을 어느 정도의 레벨에 속한 프레임을 모으면 비디오 요약에 적용시킬 수 있다.

도 4는 컬러 히스토그램을 이용하여 비디오의 샷들이 묶여져 나가는 모습을 나타내고 있다. 그림에서 샷 S1에 속하는 프레임이 1부터 5가 1과 4로 대표 될 수 있고, 샷 S2에 속하는 프레임 6부터 12가 7과 10으로 대표 될 수 있고, 샷 S3에 속하는 프레임 13부터 16까지가 13으로 대표 될 수 있다. 계속하다가 프레임 4가 전체 비디오의 대표 프레임으로 선택된다.

샷의 움직임 에너지를 이용한 방법에는 Nam의 방법이 있다. 도 5는 비디오를 sub-shot으로 나누는 과정과 각각의 sub-shot의 움직임을 그래프로 나타낸 그림이다. 이 방법은 도 5와 같이 하나의 비디오를 sub-shot으로 나눈다. 각각의 sub-shotk에 포함된L개의 프레임에i에 대하여 1차원 Wavelet 변환을 하여 이용하여 sub-shot에 대한 움직임 에너지을 구한다. 이러한 sub-shot에 포함된 프레임의 움직임 에너지의 절대값의 평균을 sub-shot의 움직임 에너지가 되고 이를 수식으로 나타내면 다음과 같다.

Motion intensity index =

이를 기준으로 움직임이 많은 sub-shot에서는 많은 프레임을 추출하고, 움직임이 적은 sub-shot에서는 적은 수의 프레임을 추출하는 방법이다.

지금까지 살펴 본 비디오 요약에 대한 기존의 방법은 요약을 위해서, 전체적인 색 구성, 컬러 히스토그램, 움직임 에너지 등 한가지 비디오의 피쳐에 의존하여 일률적으로 요약하므로, 시청자의 다양한 요구 사항(상영시간 및 형식)을 고려할 수가 없는 단점이 있다. 이러한 이유로 본 발명은 기존의 방법과는 다르게 시청자가 원하는 요약의 길이에 맞출 수 있고(스케이러블), 시청자가 주관적인 관점에서 원하는 요약의 형식에 맞출 수 있는 방법을 제시한다.

동영상 요약을 위한 첫 단계로 파일을 프레임 단위로 검색하면서 샷 경계를 찾는 인덱싱 과정이 필요하다. 기존의 방법은 일반적으로 매 프레임마다 밝기 차이나 히스토그램 차이를 계산하므로, 계산량이 많게 되며, 검출 속도 또한 느리게 된다. 더구나 비디오 데이터가 MPEG와 같이 압축되어 있는 경우는 디코딩 과정이 필요하므로 검색 시간이 더욱 길어지게 된다. 이 경우, 시간적/공간적으로 표본화하는 방법을 통해 속도 향상을 할 수 있다.

현재 주문형 비디오 시스템에 널리 사용되는 마이크로소프트사의 스트리밍 미디어 파일 포맷인 ASF(Advanced Streaming Format) 또한 비디오 데이터를 압축해서 객체 단위로 처리하고 있어 표본화 방법을 통해 인덱싱 속도 향상을 기대할 수 있다. ASF 파일 포맷은 스트리밍 미디어 파일 인코딩 과정을 거치면서, 샷 경계 지점에서 키프레임이라 불리는 인트라 코딩된 프레임이 존재하며, 이러한 키 프레임만을 처리하여 고속 인덱싱을 할 수 있을 것이다.

본 발명은 상기한 종래의 제반문제를 해결하기 위하여 안출한 것으로, 시청자의 요구(상영시간 및 형식)에 맞추어서 요약 동영상을 즉시 생성하여 서비스할 수 있도록 하는 주문형 동영상 요약 서비스 시스템을 제공하는데 주된 목적이 있다.

본 발명의 다른 목적은, 시청자의 요구를 반영하는 목적 함수를 수학적으로 기술하고 이들 각각의 목적 함수에 가중치를 다르게 설정하여, 다양한 요약본이 생성 가능하게 하는 동영상에 대한 스케이러블/주관적인 요약 방법으로서 주문형 동영상 요약 서비스 시스템을 제공하는데 있다.

본 발명의 또 다른 목적은, n 개의 샷으로 구성된 동영상에서 목적 함수들의 가중치를 합한 값을 극대화할 수 있는 최적의 요약본(샷 집합)을 빠른 시간에 찾을 수 있는 최적 탐색법으로써 주문형 동영상 요약 서비스 시스템을 제공하는 데 있다.

본 발명의 또 다른 목적은, 동영상 요약의 전 단계인 샷/신 경계를 찾는 인덱싱 단계에서 현재 주문형 비디오 시스템에서 널리 사용되고 있는 마이크로소프트사의 스트리밍 미디어 파일에서 키프레임만을 처리하는 고속 인덱싱 방법으로써 주문형 동영상 요약 서비스 시스템을 제공하는 데 있다.

상기한 본 발명의 목적은, 요약하고자 하는 다양한 동영상을 저장하는 하드디스크인 동영상 저장부와; 시청자가 주문형 비디오 시스템에 요구하고 스트리밍되는 동영상을 재생하는 클라이언트와; 클라이언트에 웹 페이지와 동영상을 전달하는 웹서버 및 스트리밍 서버와; 동영상에서 샷 경계를 검출하고 샷들의 유사도를 고려하여 씬 경계를 검출하고 필요에 따라 검출 결과를 수동으로 보완하는 자동 인덱싱부와, 동영상에 대한 메터데이터(예를 들면 제목, 생성 연월일, 주인공, 방영 일자 등)와 고급 수준 내용 정보(상황, 시간, 장소, 사건 등)을 입력하는 내용정보 입력부, 이렇게 생성된 관련 정보를 저장하는 데이터베이스, 사용자의 요구를 분석한 후, 데이터베이스로부터 필요한 정보를 읽어 와서 요약에 사용될 샷 집합를 생성하는 요약 샷 집합 생성부 및, 요약 샷 집합 생성부의 결과로 나온 샷 집합 정보를 이용하여 원본 동영상에서 필요한 부분만을 추출하여 짧은 요약 동영상을 생성하는 동영상 컷 편집부로 구성한 주문형 동영상 요약부로 구성된 주문형 동영상 요약 시스템에 있어서,

상기 자동 인덱싱부는 스트리밍 미디어 파일 내의 샷 경계 지점마다 있는 키프레임의 위치를 검색하는 키프레임 추출부와; 키프레임 단위로 밝기 차를 계산하여 샷/신 경계를 검출하는 샷/신 경계 검출부로 구성하고,

상기 요약 샷 집합 생성부는 사용자의 요구를 분석한 후 목적 함수에 사용되는 요약의 길이와 목적함수의 가중치를 설정하는 가중치 설정부와; 데이터베이스에 저장된 동영상의 피쳐와 메타데이터, 고급 수준 내용 정보로 목적함수를 계산하고 각각을 정규화하며 설정된 가중치에 의해 특정 샷 리스트의 최종 목적함수 값을 계산하는 목적함수 계산부와; 목적 함수들의 가중치를 합한 값을 극대화할 수 있는 샷 집합을 빠른 시간에 찾을 수 있는 최적 샷 집합 탐색부로 구성함으로써 달성할 수 있다.

따라서, 다양한 동영상에 대하여 종래와 같이 방송국에서 일방적으로 제작된 요약본만을 시청하는 것이 아니라, 시청자의 다양한 요구(상영 시간 및 형식)에 맞추어서 요약 동영상을 즉시 생성하여, 개인에 특화된 주문형 동영상 요약 서비스가 가능한 것이다.

도 1은 본 발명 장치의 전체 블록 구성도

도 2는 동영상의 계층적 구조 설명도

도 3은 전체적인 구성을 이용한 동영상 요약 설명도

도 4는 컬러 히스토그램을 이용한 동영상 요약 설명도

도 5는 움직임 에너지를 이용한 동영상 요약 설명도

도 6은 수동 인덱싱을 수행하는 예시도

도 7은 내용 정보를 입력하는 예시도

도 8은 목적함수를 이용한 동영상 요약의 설명도

도 9는 동영상 요약의 정의를 위해 사용하는 용어 설명도

도 10a-도 10c는 주문형 동영상 요약 서비스 시스템 클라이언트 예시도

* 도면의 주요부분에 대한 부호의 설명 *

1 : 동영상 저장부 2 : 클라이언트

3 : 웹서버 및 스트리밍 서버 4 : 주문형 동영상 요약부

41 : 자동 인덱싱부 42 : 내용정보 입력부

43 : 데이터베이스 44 : 요약 샷 집합 생성부

45 : 동영상 컷 편집부 411 : 키프레임 추출부

412 : 샷/신 경계 검출부 441 : 가중치 설정부

442 : 목적함수 계산부 443 : 최적 샷 집합 탐색부

4421 : 균등 분포도 계산부 4422 : 요약 길이 정합도 계산부

4423 : 이벤트 계산부 4424 : 히스토그램 간결도 계산부

4425 : 짧은 샷 배제도 계산부 4426 : 결론 샷 배제도 계산부

4427 : 불편향도 계산부 4428 : 최종 목적함수 계산부

이하 본 발명의 바람직한 실시예를 첨부된 도면에 의해 상세히 설명하기로 한다.

도 1는 본 발명 장치의 전체 블록 구성도를 나타낸 것이고, 도 6은 수동 인덱싱을 수행하는 예시도를 나타낸 것이며, 도 7은 내용 정보를 입력하는 예시도를 나타낸 것이고, 도 8은 목적함수를 이용한 동영상 요약의 설명도를 나타낸 것이고, 도 9는 동영상 요약의 정의를 위해 사용하는 용어 설명도를 나타낸 것이며, 도 10a-도 10c는 주문형 동영상 요약 서비스 시스템 클라이언트 예시도를 나타낸 것이다.

이에 따르면 본 발명 장치는 도 1과 같이, 요약하고자 하는 다양한 동영상을 저장하는 하드디스크인 동영상 저장부와(1); 시청자가 주문형 비디오 시스템에 요구하고 스트리밍되는 동영상을 재생하는 클라이언트(2)와; 클라이언트에 웹 페이지와 동영상을 전달하는 웹서버 및 스트리밍 서버(3)와; 동영상에서 샷 경계를 검출하고 샷들의 유사도를 고려하여 씬 경계를 검출하고 필요에 따라 검출 결과를 수동으로 보완하는 자동 인덱싱부(41)와, 동영상에 대한 메터데이터(예를 들면 제목, 생성 연월일, 주인공, 방영 일자 등)와 고급 수준 내용 정보(상황, 시간, 장소, 사건 등)을 입력하는 내용정보 입력부(42), 이렇게 생성된 관련 정보를 저장하는 데이터베이스(43), 사용자의 요구를 분석한 후, 데이터베이스로부터 필요한 정보를 읽어 와서 요약에 사용될 샷 집합를 생성하는 요약 샷 집합 생성부(44) 및, 요약 샷 집합 생성부의 결과로 나온 샷 집합 정보를 이용하여 원본 동영상에서 필요한 부분만을 추출하여 짧은 요약 동영상을 생성하는 동영상 컷 편집부(45)로 구성한 주문형 동영상 요약부(4)로 구성된 주문형 동영상 요약 서비스 시스템에 있어서,

상기 자동 인덱싱부(41)는, 스트리밍 미디어 파일 내의 샷 경계 지점마다 있는 키프레임의 위치를 검색하는 키프레임 추출부(411)와; 키프레임 단위로 밝기 차를 계산하여 샷/신 경계를 검출하는 샷/신 경계 검출부(412)로 구성하고, 상기 요약 샷 집합 생성부(44)는 사용자의 요구를 분석한 후 목적 함수에 사용되는 요약의 길이와 목적함수의 가중치를 설정하는 가중치 설정부(441)와; 데이터베이스에 저장된 동영상의 피쳐와 메타데이터, 고급 수준 내용 정보로 목적함수를 계산하고 각각을 정규화하며 설정된 가중치에 의해 특정 샷 리스트의 최종 목적함수 값을 계산하는 목적함수 계산부(442)와; 목적 함수들의 가중치를 합한 값을 극대화할 수 있는 샷 집합을 빠른 시간에 찾을 수 있는 최적 샷 집합 탐색부(443)로 구성한 것을 특징으로 한다.

또, 상기 목적함수 계산부(442)는, 요약 동영상에 포함된 샷이 동영상 내에서 고르게 선택된 정도를 계산하는 균등 분포도 계산부(4421)와; 시청자가 원하는 상영 시간에 일치하는 정도인지를 계산하는 요약 길이 정합도 계산부(4422)와; 장르별 특징이나 샷 내의 움직임 정도를 나타내는 이벤트 값을 계산하는 이벤트 계산부(4423)와; 요약 동영상에 포함된 샷이 얼마나 다양한 컬러 히스토그램 분포를 가지는가를 계산하는 히스토그램 간결도 계산부(4424)와; 3.5초 이하의 짧은 샷을 제거하기 위해 이를 계산해 내는 짧은 샷 배제도 계산부(4425)와; 최종 결론을 포함하지 않는 요약본 생성을 위해 결론 샷 배제도를 계산해 내는 결론 샷 배제도 계산부(4426)와; 요약 동영상의 특정 샷에 편중 정도를 나타내기 위해 계산해 내는 불편향도 계산부(4427)와; 이들 목적함수들의 가중치를 합한 값을 계산하는 최종 목적함수 계산부(4428)로 구성한 것을 부가적인 특징으로 한다.

이때, 상기 최적 샷 집합 탐색부(443)는 시뮬레이티드 어닐링 방법을 사용하여 최종 목표함수 값을 극대화할 수 있는 샷 집합을 빠른 시간에 찾을 수 있는 것을 특징으로 한다.

이와 같은 본 발명의 작용효과를 상세하게 설명하면 다음과 같다.

먼저, 상기 자동 인덱싱부(41)는 동영상의 기본적인 단위가 되는 샷과 신을 자동으로 검출하고 요약에서 이용되는 비디오 특징(feature)들을 미리 검출하여 데이터베이스에 저장하는 역할을 한다.

이때, 현재의 주문형 비디오 시스템에서 많이 사용하는 마이크로소프트사의 ASF 파일 포맷은 스트리밍 미디어 파일 인코딩 과정을 거치면서, 샷 경계 지점에서 키프레임이라 불리는 인트라 코딩된 프레임이 존재하며, 이러한 키 프레임만을 개발자를 위해 제공되는 API를 사용하여 고속으로 뽑아내는 것이 가능하다.

따라서, 먼저 키프레임 추출부(411)를 통해 스트림 내에서 키프레임이 존재하는 위치 정보를 검색하여 메모리에 저장해 놓는다. 샷/신 경계 검출부(412)는 메모리에 저장된 위치 정보 읽어 해당 위치에 있는 프레임만을 디코딩하여 샷 경계 지점을 찾게 된다. 샷 경계를 판단하는 기준으로는 인접한 키프레임간의 밝기 차를 이용한다. 우선 인접한 두 프레임의 밝기 정보(Luminance)를 추출하고 히스토그램을 구한다. 본 시스템에서는 히스토그램의 Bin의 개수를 64개로 정하고 구현을 하였다. 그 후 히스토그램을 비교하는데 비교하는 방법으로는 Chi-Square 방법을 이용한다. Chi-Square 공식은 다음과 같다.

Chi-Square 공식을 이용하여 구한 값이 임계값보다 큰 경우 샷이 변했다고 결정한다. 또한, 이후 요약에 사용될 특징들을 추출하여 데이터베이스(43)에 저장한다.

저장이 되는 특징들은 다음과 같다. 기본적으로 샷의 시작 프레임 및 끝 프레임, 키프레임, 키프레임의 히스토그램, 샷 내의 움직임의 정도는 장르에 상관없이 다 저장이 되고, 그 외 뉴스와 스포츠의 경우에는 각 샷의 유형들이 저장이 된다. 예를 들어 뉴스에서는 보도 유형(앵커, 인터뷰, 기자보도, 회견, 그래픽)이 있을 수 있고, 스포츠에서는 샷 유형(골, 리플레이, 줌인, 줌아웃)이 있을 수 있다. 샷을 모두 찾은 후에는 신의 경계를 검출하게 되는데, 사용하는 피쳐는 프레임의Y,U,V 값이다.

먼저 각 프레임에서 Y,U,V 값을 추출한 이후에 비교하여 임계값보다 큰 경우에는 신이라고 결정하게 되는 것이다. 경우에 따라서는 자동 인덱싱의 결과를 작업자가 수동으로 수정하는 경우도 필요하며, 도 6은 수동 인덱싱를 수행하는 예시를 나타내었다. 작업자는 자동 인덱싱의 결과를 그래픽 환경에서 확인하며 잘못 찾은 샷/신 및 보도 유형, 샷 유형에 대해서 매뉴얼 수정을 하게 된다.

내용 정보 입력부(42)는 동영상에 대한 메터데이터와 고급 수준 내용 정보를 입력하며, 신 단위 검색을 위한 키워드, 뉴스의 경우는 주제(정치/경제/사회/문화/과학/스포츠) 및 스크립트 등을 작업자가 입력한다.

도 7은 내용 정보를 입력하는 예시도이다.

데이터베이스(43)는 이렇게 생성된 동영상의 피쳐 및 메터데이터, 고급 수준 내용 정보를 저장하는 자료 구조 저장소이며 상용 관계형 데이터베이스를 사용할 수 있다.

클라이언트(2)는 시청자가 주문형 비디오 시스템에 요구하고 스트리밍되는 동영상을 재생할 수 있는 시청자 단말기이며, 스트리밍 동영상 재생 기능이 있는 웹브라우저 등을 사용하여 구성할 수 있다.

동영상 컷 편집부(45)는 동영상 요약부(4)의 결과로 나온 샷 리스트 정보를 이용하여 원본 동영상에서 필요한 부분만을 추출하여 새로운 요약 동영상을 생성하는 컴퓨터기반의 자동비디오편집기이다.

요약 샷 집합 결정부(44)는 사용자의 요구를 분석한 후, 데이터베이스(43)로부터 필요한 정보를 읽어 와서 요약에 사용될 샷 집합을 선택하는 역할을 한다.

본 발명에서는 시청자의 요구를 여러 개의 목적함수(object function)와 이에 대한 가중치(weight factor)를 조절하여 다양한 요약을 만들 수 있다. 동영상 요약은 도 8에서와 같이 목적 함수들과 이들 목적 함수들의 가중치를 합한 값을 극대화시킬 수 있는 비디오 내의 샷들의 집합으로 정의 할 수 있다. 여기서 Op(X)는 비디오 요약에 사용되는 목적함수 이고, Wp는 이러한 목적함수에 대한 가중치이다.

목적함수 계산부(442)는 데이터베이스(43)에 저장된 동영상의 피쳐로부터 목적함수를 계산하고 각각을 정규화하며 설정된 가중치에 의해 특정 샷 리스트의 최종 목적함수 값을 계산한다.

비디오 요약은 도 9에서와 같이n개의 샷으로 이루어진 비디오에서 k 개의 샷을 선택하여 이루어진 집합로 정의할수 있다. 또 이렇게 선택된 i 번째 샷는 m 개의 피쳐를 가질 수 있는데, 각각의 샷들이 갖는 샷의 j번째 특성을라 정의한다. 각각의 샷는 전체 비디오 V내에서의 시작 프레임을 나타내는끝 프레임을 나타내는와 샷의 길이를로 정의한다. 또, 원하는 요약의 길이 T로 정의한다. 이러한 정의를 바탕으로 목적함수 계산부에서 사용하는 목적함수는 7 가지이다. 이들에 대해서 설명하면 다음과 같다.

(1) 균등 분포도(Well Distributed : 0₁(X))

비디오 요약은 비디오 내에서 한 쪽 부분에 치우치지 않고 비디오 전체에 걸쳐서 고루 선택될 수 있으면 좋다고 할 수 있다. 이렇게 하기 위하여 이를 위하여 선택된 샷의 집합 X내에 속한 샷들 사이의 거리의 평균을와 같이 구할 수 있게 되고, 이러한 샷과 샷 간의 거리의 편차는로서 나타낼 수 있다. 이러한 편차가 작을수록 목적함수가 큰 값을 갖게 하기 위해서는 그 역수인을 목적함수로 정한다. 즉,

(2) 요약길이 정합도(Well Fitting : 0₂(X))

요약된 비디오는 주어진 요약 길이와 같으면 내용에 관계 없이 잘 된 요약이라고 할 수 있다. 이를 위하여 선택된 샷들의 길이의 합인이 주어진 요약 길이(T)와의 차이가 작으면 높은 값을 가질 수 있게 하기 위하여를 평행이동 하고, 축소한을 사용한다. 즉,

(3) 이벤트(Event : 0₄(X))

Event는 장르를 고려한 요약을 생성하는데 필요한 목적함수이며 장르에 따라 값을 다르게 준다. 영화 예고편과 같이 움직임이 많은 샷 위주의 요약을 위해서는 이 Event 목적함수로 샷 내의 움직임 에너지의 합으로 설정하였다. 즉, 요약된 비디오 안에 움직임 에너지가 큰 샷들이 많을수록 높은 값을 가질 수 있게 하기 위하여 각각의 샷 x의 움직임 에너지 f의 절대값의 합인이 목적함수가 되게 하였다. 즉,

뉴스 프로그램의 경우는 움직임이 많은 샷 위주의 요약보다는 뉴스 기사 단위로 요약하는 것이 바람직하다. 이를 위해서 뉴스의 보도 유형(앵커, 인터뷰, 기자보도, 회견, 그래픽)을 자동으로 분석하여, 전체 기사를 요약하여 보여주는 앵커샷과 기사 내용을 한 화면에 쉽게 설명한 그래픽 샷이 높은 중요도를 가지게 Event를 할당한다. 앵커샷은 앵커의 머리와 옷의 히스토그램를 이용하여 검출하며, 그래픽 샷은 자연적인 이미지에 비해 사용된 색상수가 한정되어 있다는 특징을 이용하여 검출한다. 비슷한 방법으로 스포츠의 경우에는 모션 벡터의 크기와 분포, optical flow 등을 분석하여 샷 유형(골, 리플레이, 줌인, 줌아웃)을 검출 한다. 골 샷과 리플레이 샷이 높은 중요도를 가지고 다음으로 줌인, 줌아웃 순으로 중요도를 주어 Event에 할당한다. 이러한 보도 유형 및 샷 유형은 자동 인덱싱부에서 자동으로 추출되어 데이터베이스에 저장되어 있다가, 동영상 요약 시에 사용된다.

(4)히스토그램 간결도(Concise : 0₅(X))

비디오에는 다양한 형태의 샷들이 존재하고 이들은 컬러 히스토그램으로 나타낼 수 있게 되는데, 요약된 비디오의 샷 안에 다양한 컬러 히스토그램을 가질수록 높은 값을 가질 수 있게 하기 위하여 한 샷 의 키 프레임의 컬러 히스토그램의 BIN인와 뽑힌 다른 샷의 키 프레임의 컬러 히스토그램의 BIN인의 차이를 내적(inner product)을 구할 때 사용하는 각의 크기인로 설정한다. 이러한 목적함수를 정규하면 다음과 같이 나타낼 수 있다.,

(5) 짧은 샷 배제도(Not too short : 0₃(X))

사람이 내용을 이해할 수 있는 최소한의 샷의 길이는 3.5 초이다. 이러한 샷들을 제거하기 위하여 상수 C보다 작게 되면 작은 값을 가질 수 있게 하기 위하여를 C에 대해 평행이동하여 구한 식을 목적함수로 사용한다. 즉,

(6) 결론 샷 배제도(Shot Exclusion : 0₆(X))

영화 예고편은 일반적으로 결론을 포함시키지 않는다. 그래서, 비디오 전체 상영길이의 80% 이내에 해당 되는 샷들만 요약에 포함시키게 한다[1]. 이를 위해 주어진 C를 넘게 되면 작은 값을 가질 수 있게 해야 하는데 위에서의 경우와 유사한 방법으로를 C를 중심으로 평행이동 하여 구한 식을 사용한다. 즉,

(7) 불편향도(Non Bias : 0₇(X))

즉, 비디오 요약에 포함된 샷들 중 한 샷이 너무 많은 부분을 차지하게 되면 좋은 요약이라고 하기는 어렵다. 이를 제거하기 위하여 뽑힌 샷 중에 최대 샷의 길이의 비가 적을 때 큰 값을 가질 수 있게 하기 위하여 앞서 구한 뽑힌 샷들의 평균 길이인와 제일 큰 샷의 길이인와의 차의 비를 목적함수로 사용한다.

앞서 설명한 목적함수 중 O₁(X)과 O₇(X)의 경우에는 그 범위가 0부터의 범위를 갖게 되고, 이를 x가 무한대를 가질 때, 1의 값을 갖게 하고, 0을 가질 때 0의 값을 가진 [0:1]의 범위를 갖는 함수로 정규화 하기 위해서 정규화 하는 함수인로 매핑해서 사용한다.

이러한 모든 목적함수를 만족하는 함수를 가중치와 합하게 되면 다음과 같은 식을 얻을 수 있게 된다. 즉, 좋은 요약이란 아래의 함수 G(X)를 극대화시킬 수 있는 샷의 집합 X 라 할 수 있다.

가중치 설정부는 시청자의 요구에 부합하는 스케이러블/주관적인 요약본을만들기 위해서, G(X)에 사용되는 요약의 길이(T)와 목적함수의 가중치를 설정하는 역할을 한다. 스케이러블 요약을 위해서는 요약본의 상영시간을 조절할 수 있어야 하며, 가중치 설정부에서는 요약의 길이 T에 시청자가 원하는 상영시간을 대입한다. 또한 시청자가 원하는 주관적인 요약 서비스를 위해서는 목적함수에 대한 가중치를 변경한다. 예를 들면, 줄거리를 유지하는 요약본을 만들기 위해서는 전체 비디오에 골고루 선택될 수 있는 O₁(X), O₂(X), O₃(X)에만 가중치를 준 목적함수가 계산될 수 있게 가중치를 다음과 같이 설정한다.

또 다른 예로, 다양한 장면의 신이 포함되는 컬러 히스토그램을 이용한 요약 방법을 위해서는 W₂와 W₅를 1로 설정한다. 영화 예고편과 같은 흥미 위주의 다이나믹한 영상이 많이 포함되고 결과를 보여주지 않는 요약을 위해서는 W₂, W₄, W₆를 1로 설정한다. 뉴스 프로그램의 경우 사용자가 앵커샷이나 그래픽 샷 위주의 요약을 요청한 경우나 스포츠 경우 하이라이트 요약을 요청한 경우에는 W₄만을 1로 설정하여 Event위주의 요약이 만들어지게 설정한다.

이론적으로 n개의 샷으로 구성된 동영상에서 목적 함수들의 가중치를 합한 값을 극대화할 수 있는 샷 집합을 구하기 위해서는 약 2ⁿ번의 계산이 필요하며 빠른 시간에 찾을 수 있는 최적 탐색법을 고려해야 한다. 최적 샷 집합 탐색부는 목적 함수를 최대화할 수 있는 근사 샷 집합을 구하는 시뮬레이티드 어닐링(simulatedannealing) 방법을 사용하여, 최적 샷 집합을 결정한다.

시뮬레이티드 어닐링은, 기본적으로 국소탐색(local search) 방법을 개선한 방법으로 일반적으로 조합 최적화(Combinatorial Optimization) 문제에 많이 쓰이지만, 유전자 알고리즘이나 신경망 학습 등 다른 분야에도 폭 넓게 쓰이는 방법이다. 이 방법을 이용하여 최종 목표 함수 값을 극대화할 수 있는 근사 샷 집합을 구하는 것이 가능하다.

비교적 계산 시간이 많이 걸리는 움직임 에너지, 컬러 히스토그램과 같은 동영상의 피쳐와 뉴스의 보도 유형(앵커, 인터뷰, 기자보도, 회견, 그래픽), 스포츠의 샷 유형(골, 리플레이, 줌인, 줌아웃)은 자동 인덱싱 과정을 거쳐 데이터베이스에 이미 저장되어 있으므로 빠른 시간에 목적함수를 계산할 수 있으며, 시뮬레이티드 어닐링 방법 또한 빠르게 요약본을 생성하므로 시청자의 요구에 맞추어서 2∼3초 내에 즉시 요약 동영상을 생성하여 서비스하는 것이 가능하다.

도 10a-도 10c는 본 발명 장치 및 방법에 의해서 드라마에 대해서 줄거리를 유지하는 요약 및 흥미위주의 다이나믹한 요약을 시청하는 예시 화면이다. 또한 데이터베이스에 저장된 뉴스의 보도 유형, 스포츠의 샷 유형 정보를 이용하여 앵커샷 위주의 뉴스 요약, 중요 장면 위주의 스포츠 요약 등 다양한 형식과 원하는 상영 시간에 맞춘 요약 서비스의 실시 예를 보여준다.

이상에서 설명한 바와 같이 본 발명에 의하면, 다양한 동영상에 대하여 종래와 같이 방송국에서 일방적으로 제작된 요약본만을 시청하는 것이 아니라, 시청자의 다양한 요구(상영 시간 및 형식)에 맞추어서 요약 동영상을 즉시 생성하여, 개인에 특화된 주문형 동영상 요약 서비스가 가능한 잇점이 있다.

또한, 방송국 운영자 입장에서는 개개의 동영상에 대한 요약본을 고심하여 제작할 필요성 없이, 샷/씬 위치 정보 등의 인덱싱 정보와 메터데이터, 고급 수준 내용 정보만을 추출하여 데이터베이스에 저장해 놓으면 되므로, 간단하게 기존의 주문형 비디오 시스템에 부가적인 요약본 서비스를 실현할 수 있다는 잇점이 있다.

Claims

요약하고자 하는 다양한 동영상을 저장하는 하드디스크인 동영상 저장부와(1); 시청자가 주문형 비디오 시스템에 요구하고 스트리밍되는 동영상을 재생하는 클라이언트(2)와; 클라이언트에 웹 페이지와 동영상을 전달하는 웹서버 및 스트리밍 서버(3)와; 동영상에서 샷 경계를 검출하고 샷 들의 유사도를 고려하여 씬 경계를 검출하고 필요에 따라 검출 결과를 수동으로 보완하는 자동 인덱싱부(41)와, 동영상에 대한 메터데이터(예를 들면 제목, 생성 연월일, 주인공, 방영 일자 등)와 고급 수준 내용 정보(예를들면 상황, 시간, 장소, 사건 등)을 입력하는 내용정보 입력부(42), 이렇게 생성된 관련 정보를 저장하는 데이터베이스(43), 사용자의 요구를 분석한 후, 데이터베이스로부터 필요한 정보를 읽어 와서 요약에 사용될 샷 집합를 생성하는 요약 샷 집합 생성부(44) 및 요약 샷 집합 생성부의 결과로 나온 샷 집합 정보를 이용하여 원본 동영상에서 필요한 부분만을 추출하여 짧은 요약 동영상을 생성하는 동영상 컷 편집부(45)로 구성되는 주문형 동영상 요약부(4)로 구성하되,

상기 자동 인덱싱부(41)는, 동영상 스트리밍 미디어 파일 내의 샷 경계 지점마다 있는 키프레임만능 디코딩하는 키프레임 추출부(411)와; 상기 키프레임 추출부(411)에서 디코딩되어 출력되는 인접한 키프레임 간의 밝기차를 이용하여 고속 샷/신 경계 검출이 가능할 수 있도록, 스트리밍 미디어 파일 내의 키프레임의 위치 정보를 검색하여 메모리에 미리 저장해 놓은 키프레임 추출부(412)를 구비하고,

상기 요약 샷 집합 생성부(44)는, 사용자의 요구를 분석한 후 목적 함수에 사용되는 요약의 길이와 목적함수의 가중치를 설정하는 가중치 설정부(441)와; 데이터베이스에 저장된 동영상의 피쳐와 메타데이터, 고급 수준 내용 정보로 목적함수를 계산하고 각각을 정규화하며 설정된 가중치에 의해 특정 샷 리스트의 최종 목적함수 값을 계산하는 목적함수 계산부(442)와; 목적 함수들의 가중치를 합한 값을 극대화할 수 있는 샷 집합을 빠른 시간에 찾을 수 있는 최적 샷 집합 탐색부(443)로 구성된 주문형 동영상 요약 서비스 시스템에 있어서,

상기 목적함수 계산부(442)는, 요약 동영상에 포함된 샷이 동영상 내에서 고르게 선택된 정도를 계산하는 균등 분포도 계산부(4421)와; 시청자가 원하는 상영 시간에 일치하는 정도인지를 계산하는 요약 길이 정합도 계산부(4422)와; 장르별 특징이나 샷 내의 움직임 정도를 나타내는 이벤트 값을 계산하는 이벤트 계산부(4423)와; 요약 동영상에 포함된 샷이 얼마나 다양한 컬러 히스토그램 분포를 가지는가를 계산하는 히스토그램 간결도 계산부(4424)와; 3.5초 이하의 짧은 샷을 제거하기 위해 이를 계산해 내는 짧은 샷 배제도 계산부(4425)와; 최종 결론을 포함하지 않는 요약본 생성을 위해 결론 샷 배제도를 계산해 내는 결론 샷 배제도 계산부(4426)와; 요약 동영상의 특정 샷에 편중 정도를 나타내기 위해 계산해 내는 불편향도 계산부(4427)와; 이들 목적함수들의 가중치를 합한 값을 계산하는 최종 목적함수 계산부(4428)로 구성한 것 특징으로 하는 주문형 동영상 요약 서비스 시스템.
삭제
삭제
삭제
삭제