KR100650407B1

KR100650407B1 - 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치

Info

Publication number: KR100650407B1
Application number: KR1020050109309A
Authority: KR
Inventors: 정진국; 문영수; 엄기완; 김지연; 김형국
Original assignee: 삼성전자주식회사
Priority date: 2005-11-15
Filing date: 2005-11-15
Publication date: 2006-11-29
Also published as: JP4532449B2; JP2007143114A; US9251853B2; US20070109446A1

Abstract

본 발명은 오디오 정보를 기반으로 하여 이벤트 후보 구간을 검출한 후 검출된 이벤트 후보 구간에 대해서만 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하고 검출된 최종 이벤트 구간에 대해 비디오 요약 정보를 생성하는 방법 및 그 장치에 관한 것이다. 본 발명은 비디오 데이터에서 오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 단계와, 상기 검출된 이벤트 후보 구간에서 샷 변환을 검출하는 단계와, 상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼(visual) 정보를 기반으로 최종 이벤트 구간을 검출하는 단계, 및 상기 추출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법을 제공한다. 본 발명에 의하면, 오디오 정보를 이용하여 이벤트 구간을 검출하여 검출된 이벤트 구간에 대해서만 비쥬얼 정보를 이용하여 비디오 요약 정보를 생성함으로써 요약의 의미 수준을 유지하면서도 비디오 요약 정보를 생성하는 처리 속도를 향상시킬 수 있다.

멀티 모달, 비디오 정보, 오디오 정보, 요약, 생성

Description

멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치{METHOD AND APPARATUS FOR GENERATING VIDEO ABSTRACT INFORMATION AT HIGH SPEED ON BASED MULTI-MODAL}

도 1은 본 발명에 따른 고속 비디오 요약 생성 장치의 구성을 나타내는 도면이다.

도 2는 본 발명에 따른 고속 비디오 요약 생성 방법의 흐름을 나타내는 도면이다.

도 3은 본 발명에 따른 고속 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간의 일례를 나타내는 도면이다.

도 4는 본 발명에 따른 고속 비디오 요약 생성 방법에 있어서, 오디오 이벤트에 따른 이벤트 후보 구간의 일례를 나타내는 도면이다.

도 5는 본 발명에 따른 고속 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 검출하는 과정을 나타내는 도면이다.

도 6은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 검출하는 과정을 나타내는 도면이다.

도 7은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 검출하는 일례를 나타내는 도면이다.

도 8은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 패널티 영역 샷을 검출하는 과정을 나타내는 도면이다.

도 9는 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 패널티 영역 샷을 2치화한 일례를 나타내는 도면이다.

도 10은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 클로즈업 샷을 검출하는 과정을 나타내는 도면이다.

도 11은 본 발명의 다른 실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 공간 윈도우의 이동을 나타내는 도면이다.

도 12는 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 이벤트 구간을 확정하는 과정을 나타내는 도면이다.

도 13은 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 이벤트에 의한 이벤트 구간을 확정하는 일례를 나타내는 도면이다.

도 14는 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 샷을 확정하는 과정을 나타내는 도면이다.

도 15는 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 모델 후보 샷 추출 과정을 나타내는 도면이다.

도 16은 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 모델 생성 과정을 나타내는 도면이다.

도 17은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 이벤트를 확정하는 과정을 나타내는 도면이다.

도 18은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 이벤트의 일례를 나타내는 도면이다.

도 19는 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 정면 클로즈업 샷을 검출하는 과정을 나타내는 도면이다.

도 20은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 정면 클로즈업 샷의 일례를 나타내는 도면이다.

도 21은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 샷을 검출하는 과정을 나타내는 도면이다.

도 22는 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 샷의 일례를 나타내는 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

100: 고속 비디오 요약 생성 장치

110: 이벤트 후보 구간 검출부

120: 샷 변환 검출부

130: 최종 이벤트 구간 검출부

140: 비디오 요약 정보 생성부

본 발명은 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 오디오 정보를 기반으로 하여 이벤트 후보 구간을 검출한 후 검출된 이벤트 후보 구간에 대해서만 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하고 검출된 최종 이벤트 구간에 대해 비디오 요약 정보를 생성하는 방법 및 그 장치에 관한 것이다.

종래 축구 비디오 컨텐츠 요약 방법으로 미국 공개특허 US2004/0017389호는 재생(Replay), 라이브 이벤트(live event), 셋업 이벤트(Setup event)를 이용하여 비디오 컨텐츠를 요약한다. 하지만, 종래 축구 비디오 컨텐츠 요약 방법은 비쥬얼 정보와 오디오 정보를 개별적으로 처리하여 비디오 데이터를 요약하므로 처리 속도가 느린 문제점이 있다.

한편, 멀티미디어 컨텐츠 인덱싱 방법으로 미국 등록특허 US6,714,909호는 뉴스 컨텐츠에 대해 비쥬얼, 오디오, 텍스트와 같은 멀티 모달 정보를 이용하여 요약 생성, 화자 인식, 주제 인식 등과 같이 높은 수준의 뉴스 정보를 생성한다. 하지만, 종래 멀티미디어 컨텐츠 인덱싱 방법도 역시 비쥬얼 정보와 오디오 정보를 개별적으로 처리하여 비디오 요약 정보를 생성함으로써 그 처리 속도가 느린 문제점이 있다.

이와 같이, 종래 멀티 모달 정보 기반의 요약 방법은 멀티 모달 처리를 위해서 비쥬얼 정보와 오디오 정보를 개별적으로 처리한 후 그 결과를 통합 적용하여 요약을 생성하므로 그 처리 시간이 비교적 오래 걸리는 문제점이 있다. 즉, 종래 멀티 모달 정보 기반의 요약 방법은 특히 비쥬얼 정보를 기반으로 요약하는 경우 예를 들어 HD 영상 2시간 분량인 18GB 비디오 데이터 중에 비쥬얼 정보가 약 15GB이므로 계산 처리할 비쥬얼 정보의 용량이 매우 크기 때문에 이벤트 검출 및 요약 생성 속도가 현저하게 느려지는 문제점이 있다.

따라서, 비디오 요약을 생성하기 위한 처리 속도를 향상시킬 수 있는 방법이 절실하게 요청되어 오고 있다.

본 발명은 상기와 같은 종래기술을 개선하기 위해 안출된 것으로서, 비디오 데이터에서 오디오 정보를 이용하여 이벤트 후보 구간을 검출한 후 이벤트 후보 구간에 대해서만 비쥬얼 정보를 처리하여 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성하는 방법 및 그 장치를 제공하는 것을 목적으로 한다.

본 발명의 다른 목적은 비디오 데이터에서 오디오 정보와 비쥬얼 정보를 순차적으로 처리하여 비디오 요약 정보에 대한 의미 수준을 유지하면서도 그 처리 속도를 향상시킬 수 있는 비디오 요약 정보 생성 방법 및 그 장치를 제공하는 것이다.

본 발명의 또 다른 목적은 스포츠 경기와 연관된 비디오 데이터에서 환호성, 아나운서의 고조도, 박수 소리와 같은 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성하는 방법 및 그 장치를 제공하는 것이다.

본 발명의 또 다른 목적은 뉴스와 연관된 비디오 데이터에서 묵음 구간에 따른 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성하는 방법 및 그 장치를 제공하는 것이다.

본 발명의 또 다른 목적은 드라마 또는 영화와 연관된 비디오 데이터에서 음악 구간에 따른 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성하는 방법 및 그 장치를 제공하는 것이다.

상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명은 비디오 데이터에서 오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 단계와, 상기 검출된 이벤트 후보 구간에서 샷 변환을 검출하는 단계와, 상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼(visual) 정보를 기반으로 최종 이벤트 구간을 검출하는 단계, 및 상기 추출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법을 제공한다.

본 발명의 일측에 따르는 멀티 모달 기반의 고속 비디오 요약 생성 장치는 비디오 데이터에서 오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 이벤트 후보 구간 검출부와, 상기 검출된 이벤트 후보 구간에서 샷 변환을 검출하는 샷 변환 검출부와, 상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼(visual) 정보를 기반으로 최종 이벤트 구간을 검출하는 최종 이벤트 구간 검 출부, 및 상기 추출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성하는 비디오 요약 정보 생성부를 포함한다.

이하에서는 첨부된 도면들을 참조하여 본 발명의 실시예에 따른 고속 비디오 요약 생성 방법 및 그 장치를 상세히 설명한다.

도 1을 참조하면, 고속 비디오 요약 생성 장치(100)는 이벤트 후보 구간 검출부(110), 샷 변환 검출부(120), 최종 이벤트 구간 검출부(130) 및 비디오 요약 정보 생성부(140)를 포함한다.

이벤트 후보 구간 검출부(110)는 비디오 데이터에서 오디오 정보를 기반으로 오디오 이벤트를 검출하고, 상기 검출된 오디오 이벤트를 이용하여 이벤트 후보 구간을 검출한다. 상기 이벤트 후보 구간은 상기 비디오 데이터에서 이벤트가 발생할 가능성이 큰 구간으로 상기 비디오 데이터의 종류에 따라 각기 다른 오디오 이벤트 특성을 가질 수 있다.

이벤트 후보 구간 검출부(110)는 상기 비디오 데이터가 예를 들어 스포츠 경기와 연관된 데이터인 경우 환호성, 아나운서의 고조도, 박수 소리 등과 같은 오디오 이벤트를 이용하여 상기 이벤트 후보 구간을 검출할 수 있다.

이벤트 후보 구간 검출부(110)는 상기 비디오 데이터가 예를 들어 뉴스와 연관된 데이터인 경우 묵음 구간과 같은 오디오 이벤트를 이용하여 상기 이벤트 후보 구간을 검출할 수 있다.

이벤트 후보 구간 검출부(110)는 상기 비디오 데이터가 예를 들어 드라마 또는 영화와 연관된 데이터인 경우 배경 음악 구간 혹은 폭발음과 같은 오디오 이벤트를 이용하여 상기 이벤트 후보 구간을 검출할 수 있다.

이벤트 후보 구간 검출부(110)는 상기 오디오 이벤트를 SVM(Support Vector Machine) 또는 GMM(Gaussian Mixture Model) 등과 같은 분류자(classifier)를 이용하여 모델링(modeling)하여 상기 이벤트 후보 구간을 검출할 수 있다.

이벤트 후보 구간 검출부(110)는 도 4에 도시된 것과 같은 오디오 이벤트 구간으로 검출된 세그먼트(400)를 중심으로 전방(401) 또는 후방(402)의 일정 구간을 이벤트 후보 구간(410)으로 검출할 수 있다. 상기 이벤트 후보 구간은 상기 오디오 이벤트가 발생된 전후의 구간이 상기 비디오 데이터에서 중요한 장면일 가능성이 높다는 이유에서 결정된다.

이벤트 후보 구간 검출부(110)는 상기 오디오 이벤트 구간으로 검출된 세그먼트를 중심으로 전후방으로 일정 시간만큼의 구간을 상기 이벤트 후보 구간으로 검출할 수 있다. 상기 이벤트 후보 구간은 예를 들어 상기 오디오 이벤트 구간의 전방 10초, 상기 오디오 이벤트 구간의 후방 10초, 또는 상기 오디오 이벤트 구간의 전후방 10초만큼의 구간을 포함할 수 있다.

샷 변환 검출부(120)는 비쥬얼(visual) 정보 처리의 효율성을 높이고 소정 최종 이벤트 구간을 샷 단위로 결정하기 위해 상기 이벤트 후보 구간에 대한 샷 변환을 검출한다.

최종 이벤트 구간 검출부(130)는 상기 이벤트 후보 구간에서 상기 검출된 샷 정보 및 상기 비쥬얼 정보를 이용하여 최종 이벤트 구간을 추출한다.

즉, 최종 이벤트 구간 검출부(130)는 상기 이벤트 후보 구간에서 소정 이벤트 기준 샷을 검출하고, 상기 검출된 이벤트 기준 샷을 중심으로 인접한 이벤트 구성 샷을 검출하고, 상기 검출된 이벤트 기준 샷과 상기 이벤트 구성 샷을 이용하여 최종 이벤트 구간을 검출할 수 있다.

비디오 요약 정보 생성부(140)는 상기 검출된 최종 이벤트 구간을 조합하여 상기 비디오 데이터에 대한 비디오 요약 정보를 생성한다.

도 2를 참조하면, 단계(210)에서 고속 비디오 요약 생성 장치는 도 3에 도시된 것과 같은 비디오 데이터(300)에서 오디오 정보를 기반으로 오디오 이벤트를 검출하고, 상기 검출된 오디오 이벤트를 이용하여 이벤트 후보 구간(311, 312, 313)을 검출한다.

본 발명의 일실시예에 따른 비디오 데이터가 스포츠 경기와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 환호성, 아나운서의 고조도 또는 박수 소리 등과 같은 오디오 데이터가 발생됨에 따라 결정될 수 있다.

또한, 본 발명의 다른 실시예에 따른 비디오 데이터가 뉴스와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 묵음 구간에 따라 결정될 수 있다.

또한, 본 발명의 또 다른 실시예에 따른 비디오 데이터가 드라마 또는 영화와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 음악 구간 혹은 폭발음에 따 라 결정될 수 있다.

즉, 단계(210)에서 상기 고속 비디오 요약 생성 장치는 상기 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 상기 검출된 오디오 이벤트 구간으로 검출된 세그먼트를 중심으로 일정 구간을 상기 이벤트 후보 구간으로 검출할 수 있다. 상기 이벤트 후보 구간은 상기 검출된 오디오 이벤트를 기준으로 전방 또는 후방의 일정 구간일 수 있다. 또한, 상기 이벤트 후보 구간은 예를 들어 도 4에 도시된 것과 같이 오디오 이벤트(400)를 기준으로 전방 N초 구간(401) 및 후방 N초 구간(402)일 수 있다.

단계(220)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 이벤트 후보 구간에서 도 3에 도시된 것과 같이 샷 변환(321~326)을 검출한다.

단계(230)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼 정보를 기반으로 최종 이벤트 구간(331, 332)을 검출한다.

단계(240)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성한다.

이와 같이, 본 발명에 따른 고속 비디오 요약 생성 방법은 오디오 정보와 비디오 정보를 순차적으로 처리함으로써 종래 멀티 모달 요약 방법과 대비할 때 의미 수준을 유지하면서도 그 처리 속도를 향상시킬 수 있다.

도 5를 참조하면, 단계(510)에서 상기 고속 비디오 요약 생성 장치는 상기 이벤트 후보 구간 내에서 소정 이벤트 기준 샷을 검출한다.

본 발명의 일실시예에 따른 비디오 데이터가 축구 경기와 연관된 데이터인 경우, 상기 이벤트 기준 샷은 패널티 영역 샷일 수 있다.

또한, 본 발명의 다른 실시예에 따른 비디오 데이터가 뉴스와 연관된 데이터인 경우, 상기 이벤트 기준 샷은 앵커 샷일 수 있다.

또한, 본 발명의 또 다른 실시예에 따른 비디오 데이터가 영화와 연관된 데이터인 경우, 상기 이벤트기준 샷은 정면 클로즈업 샷일 수 있다.

단계(520)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 이벤트 기준 샷을 중심으로 인접한 이벤트 구성 샷을 검출한다.

본 발명의 일실시예에 따른 고속 비디오 요약 생성 방법은 비디오 데이터가 축구 경기와 연관된 데이터인 경우, 상기 패널티 영상 샷의 후방으로 소정 개수 이상의 클로즈업 샷이 존재하면, 상기 클로즈업 샷을 상기 이벤트 구성 샷으로 검출할 수 있다. 즉, 상기 고속 비디오 요약 생성 장치는 예를 들어 상기 패널티 영상 샷의 후방으로 2개 이상의 클로즈업 샷이 존재하면, 상기 클로즈업 샷을 상기 이벤트 구성 샷으로 검출할 수 있다.

본 발명의 다른 실시예예 따른 비디오 데이터가 영화와 연관된 데이터인 경우, 상기 이벤트 구성 샷은 액션 샷일 수 있다.

단계(530)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 이벤트 기준 샷 및 상기 이벤트 구성 샷을 이용하여 샷 단위로 최종 이벤트 구간을 확정한 다.

상기 고속 비디오 요약 생성 장치는 본 발명의 일실시예에 따른 비디오 데이터가 축구 경기와 연관된 데이터인 경우, 상기 패널티 영역 샷 및 상기 클로즈업 샷으로 상기 최종 이벤트 구간을 확정할 수 있다.

도 6을 참조하면, 단계(610)에서 상기 고속 비디오 요약 생성 장치는 상기 이벤트 후보 구간에서 비쥬얼 정보를 이용하여 패널티 영역 샷이 존재하는지 여부를 판단한다. 상기 이벤트 후보 구간은 상기 축구 경기에 대한 비디오 데이터인 경우, 상기 비디오 데이터에서 오디오 정보를 기반으로 예를 들어 환호성, 아나운서의 고조도 또는 박수 소리 등과 같이 오디오 이벤트가 발생되는 구간의 전후방 일정 구간으로 결정될 수 있다.

상기 패널티 영역 샷이 존재하면, 단계(620)에서 상기 고속 비디오 요약 생성 장치는 상기 패널티 영역 샷을 이벤트 기준 샷으로 검출한다.

단계(630)에서 상기 고속 비디오 요약 생성 장치는 상기 패널티 영역 샷의 후방으로 클로즈업 샷이 소정 개수 이상 존재하는지 여부를 판단한다. 상기 소정 개수는 예를 들어 2개일 수 있다.

상기 클로즈업 샷이 소정 개수 이상 존재하면, 단계(640)에서 상기 고속 비디오 요약 생성 장치는 상기 클로즈업 샷을 이벤트 구성 샷으로 검출한다. 예를 들어 상기 클로즈업 샷이 2개 이상 존재하면, 상기 고속 비디오 요약 생성 장치는 상기 클로즈업 샷을 이벤트 구성 샷으로 검출할 수 있다.

단계(650)에서 상기 고속 비디오 요약 생성 장치는 상기 패널티 영역 샷과 상기 클로즈업 샷으로 최종 이벤트 구간을 확정한다.

도 7을 참조하면, 제1 비디오 데이터(710)는 예를 들어 골 이벤트가 발생한 경우로서 패널티 영역 샷(711)과 패널티 영역 샷(711)의 후방으로 클로즈업 샷(712~714)이 3개 존재하므로 패널티 영역 샷(711)과 클로즈업 샷(712)이 최종 이벤트 구간으로 확정될 수 있다. 따라서, 제1 비디오 데이터(710)는 상기 확정된 최종 이벤트 구간에서 골 이벤트가 발생되었음을 나타내는 비디오 요약 정보를 포함할 수 있다.

제2 비디오 데이터(720)는 패널티 영역 샷(724)을 포함하고 있지만 패널티 영역 샷(724)의 후방으로 클로즈업 샷이 존재하지 않으므로 최종 이벤트 구간으로 확정될 수 없다. 따라서, 제2 비디오 데이터(720)는 확정된 최종 이벤트 구간이 존재하지 않으므로 비디오 요약 정보도 포함되지 않는다.

제3 비디오 데이터(730)는 예를 들어 슛 이벤트가 발생한 경우로서 패널티 영역 샷(732)과 패널티 영역 샷(732)의 후방으로 클로즈업 샷(723, 724)이 2개 존재하므로 패널티 영역 샷(732)과 클로즈업 샷(723)이 최종 이벤트 구간으로 확정될 수 있다. 따라서, 제3 비디오 데이터(730)는 상기 확정된 최종 이벤트 구간에서 슛 이벤트가 발생되었음을 나타내는 비디오 요약 정보를 포함할 수 있다.

도 8을 참조하면, 단계(810)에서 상기 고속 비디오 요약 생성 장치는 비디오 프레임을 N*N 블록으로 나눈다. 상기 고속 비디오 요약 생성 장치는 예를 들어 상기 비디오 프레임을 16*16 블록으로 나눌 수 있다.

단계(820)에서 상기 고속 비디오 요약 생성 장치는 각 블록마다 픽셀 Y 값에 대한 임계값(T)를 수학식 1에 의해 결정한다.

α는 밝기 임계값 상수를 나타낸다.

단계(830)에서 상기 고속 비디오 요약 생성 장치는 상기 각 블록 내 픽셀 Y값이 임계값보다 크면 '255'로 할당하고, 상기 픽셀 Y값이 상기 임계값보다 작으면 '0'으로 할당한다. 즉, 상기 고속 비디오 요약 생성 장치는 비디오 데이터를 상기 임계값과 비교한 결과에 따라 '255' 또는 '0'으로 2치화(Binarization)한다.

단계(840)에서 상기 고속 비디오 요약 생성 장치는 상기 할당된 결과 값이 '255'인 픽셀의 위치(x, y)를 수학식 2에 대입한다.

x cosθ + y sinθ = ρ

단계(850)에서 상기 고속 비디오 요약 생성 장치는 가장 많은 픽셀 수(MaxPixelNum)를 갖는 θ, ρ를 계산한다.

상기 고속 비디오 요약 생성 장치는 단계(840) 및 단계(850)를 통해 허프 변환(Hough Transform)을 수행한다.

단계(860)에서 상기 고속 비디오 요약 생성 장치는 상기 가장 많은 픽셀 수(MaxPixelNum)가 소정 임계값보다 큰지 여부를 판단한다.

상기 가장 많은 픽셀 수가 상기 임계값보다 큰 경우, 단계(870)에서 상기 고속 비디오 요약 생성 장치는 상기 계산된 θ, ρ가 패널티 라인의 기울기와 거리에 해당하는지 여부를 판단한다.

상기 계산된 θ, ρ가 패널티 라인의 기울기와 거리에 해당하는 경우, 단계(880)에서 상기 고속 비디오 요약 생성 장치는 상기 비디오 프레임을 패널티 영역 샷으로 결정한다.

도 9를 참조하면, 제1 영상(910)은 패널티 영역 샷에 대한 원래 영상이고, 제2 영상(920)은 단계(810) 내지 단계(830)를 통해 제1 영상(910)으로부터 2치화(binarization)된 영상을 나타낸다.

도 10을 참조하면, 단계(1010)에서 상기 고속 비디오 요약 생성 장치는 소 정 샷으로부터 주요 색(dominant color)을 추출한다. 본 발명에 따른 고속 비디오 요약 생성 장치는 비디오 프레임들중에서 일부분만을 사용하기 때문에 각 프레임 내에서 필드 색을 추출하도록 한다.

단계(1020)에서 상기 고속 비디오 요약 생성 장치는 상기 추출된 주요 색의 비율이 소정 임계값보다 높은 색을 추출하여 필드 색 후보로 정의한다.

단계(1030)에서 상기 고속 비디오 요약 생성 장치는 상기 정의된 필드 색 후보와 미리 모델링된 필드 색을 비교한다.

단계(1040)에서 상기 고속 비디오 요약 생성 장치는 상기 비교된 필드 색 후보와 상기 모델링된 필드 색을 비교한 결과 차이 값이 소정 임계값보다 작은지 여부를 판단한다.

상기 차이값이 상기 임계값보다 작지 않으면, 단계(1045)에서 상기 고속 비디오 요약 생성 장치는 상기 샷을 클로즈업 샷으로 결정한다.

상기 차이값이 상기 임계값보다 작으면, 단계(1050)에서 상기 고속 비디오 요약 생성 장치는 상기 필드 색 후보를 필드 색으로 정의한다.

단계(1060)에서 상기 고속 비디오 요약 생성 장치는 소정 공간 윈도우 내에서 상기 정의된 필드 색의 비율을 계산한다.

단계(1070)에서 상기 고속 비디오 요약 생성 장치는 상기 계산된 비율이 소정 임계값보다 작은지 여부를 판단한다.

상기 계산된 비율이 상기 임계값보다 작으면, 단계(1045)와 마찬가지로 상기 고속 비디오 요약 생성 장치는 상기 샷을 클로즈업 샷으로 결정한다.

상기 계산된 비율이 상기 임계값보다 작지 않으면, 단계(1080)에서 상기 고속 비디오 요약 생성 장치는 도 11에 도시된 것과 같은 공간 윈도우(1100)를 이동시킨 후 단계(1060)부터의 동작을 다시 수행한다.

이와 같이, 본 발명의 일실시예에 따른 비디오 요약 생성 방법은 스포츠 경기와 연관된 비디오 데이터에서 환호성, 아나운서의 고조도, 박수 소리와 같은 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성할 수 있다.

도 12는 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 확정하는 과정을 나타내는 도면이다.

도 12를 참조하면, 단계(1210)에서 상기 고속 비디오 요약 생성 장치는 비디오 데이터가 뉴스와 연관된 데이터인 경우, 상기 비디오 데이터의 샷에서 앵커 샷이 존재하는지 여부를 판단한다.

상기 고속 비디오 요약 생성 장치는 상기 비디오 데이터가 뉴스와 연관된 데이터인 경우, 묵음 구간에 따라 이벤트 후보 구간을 검출하고, 상기 검출된 이벤트 후보 구간에서 발생되는 샷 변환을 검출한 후 상기 검출된 샷 변환 지점의 비디오 데이터로부터 앵커 샷이 존재하는지 여부를 판단할 수 있다.

상기 앵커 샷이 존재하면, 단계(1220)에서 상기 고속 비디오 요약 생성 장치는 상기 앵커 샷을 이벤트 기준 샷으로 설정한다.

단계(1230)에서 상기 고속 비디오 요약 생성 장치는 상기 앵커 샷의 후방으 로 앵커 샷이 아닌 샷(Non anchor shot)이 존재하는지 여부를 판단한다.

상기 앵커 샷의 후방으로 앵커 샷이 아닌 샷이 존재하면, 단계(1240)에서 상기 고속 비디오 요약 생성 장치는 상기 앵커 샷이 아닌 샷을 이벤트 구성 샷으로 설정한다.

단계(1250)에서 상기 고속 비디오 요약 생성 장치는 최종 이벤트 구간을 상기 앵커 샷으로 확정한다.

도 13은 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 이벤트에 의한 최종 이벤트 구간을 확정하는 일례를 나타내는 도면이다.

도 13을 참조하면, 제1 비디오 데이터(1310)는 앵커 샷(1311) 및 앵커 샷(1311)의 후방으로 앵커 샷이 아닌 샷(1312~1314)이 존재하므로 앵커 샷(1311)에 대한 비디오 요약 정보를 포함한다.

제2 비디오 데이터(1320)는 앵커 샷이 존재하지 않으므로 비디오 요약 정보를 포함하지 않는다.

제3 비디오 데이터(1330)는 앵커 샷(1332) 및 앵커 샷(1332)의 후방으로 앵커 샷이 아닌 샷(1333, 1334)이 존재하므로 앵커 샷(1332)에 대한 비디오 요약 정보를 포함한다.

도 14를 참조하면, 단계(1410)에서 상기 고속 비디오 요약 생성 장치는 앵 커 모델 후보 샷을 추출한다. 상기 앵커 모델 후보 샷을 추출하는 과정은 도 15를 참조하여 하기에서 보다 상세히 설명한다.

도 15를 참조하면, 단계(1510)에서 상기 고속 비디오 요약 생성 장치는 피부색 검출을 이용하여 얼굴을 검출한다.

단계(1520)에서 상기 고속 비디오 요약 생성 장치는 검출된 얼굴의 위치 정보를 이용하여 필터링한다.

단계(1530)에서 상기 고속 비디오 요약 생성 장치는 얼굴을 포함하는 사각형(Bounding Box)의 aspect ratio를 이용하여 필터링한다.

단계(1540)에서 상기 고속 비디오 요약 생성 장치는 얼굴을 포함하는 사각형(Bounding Box) 내 피부색의 비율을 이용하여 필터링한다.

단계(1420)에서 상기 고속 비디오 요약 생성 장치는 앵커 모델을 생성한다. 상기 앵커 모델을 생성하는 과정은 도 16을 참조하여 하기에서 보다 상세히 설명한다.

도 16을 참조하면, 단계(1610)에서 상기 고속 비디오 요약 생성 장치는 색 정보를 이용하여 얼굴 클러스터링(clustering)을 수행한다.

단계(1620)에서 상기 고속 비디오 요약 생성 장치는 클러스터(cluster) 내 개수를 이용하여 앵커 클러스터를 선택한다.

단계(1630)에서 상기 고속 비디오 요약 생성 장치는 중앙/좌/우 앵커 모델을 생성한다.

단계(1430)에서 상기 고속 비디오 요약 생성 장치는 상기 생성된 앵커 모델과 키 프레임을 비교하여 앵커 샷을 확정한다.

이와 같이, 본 발명의 다른 실시예에 따른 비디오 요약 생성 방법은 뉴스와 연관된 비디오 데이터에서 묵음 구간에 따른 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성할 수 있다.

도 17을 참조하면, 단계(1710)에서 상기 고속 비디오 요약 생성 장치는 정면 클로즈업 샷이 존재하는지 여부를 판단한다.

상기 정면 클로즈업 샷이 존재하면, 단계(1720)에서 상기 고속 비디오 요약 생성 장치는 상기 정면 클로즈업 샷을 이벤트 기준 샷으로 설정한다.

단계(1730)에서 상기 고속 비디오 요약 생성 장치는 상기 정면 클로즈 샷의 주위(전방 또는 후방)로 액션 샷이 존재하는지 여부를 판단한다.

상기 액션 샷이 존재하면, 단계(1740)에서 상기 고속 비디오 요약 생성 장치는 상기 액션 샷을 이벤트 구성 샷으로 설정한다.

단계(1750)에서 상기 고속 비디오 요약 생성 장치는 상기 최종 이벤트 구간 을 상기 클로즈업 샷 및 상기 액션 샷으로 설정한다.

도 18을 참조하면, 제1 비디오 데이터(1810)는 정면 클로즈업 샷(1814)이 존재하지만 정면 클로즈업 샷(1814)의 주위(전방 또는 후방)로 액션 샷이 존재하지 않으므로 최종 이벤트 구간이 구성되지 않기 때문에 비디오 요약 정보를 포함하지 않는다.

제2 비디오 데이터(1820)는 정면 클로즈업 샷(1823)이 존재하지만 정면 클로즈업 샷(1823)의 주위(전방 또는 후방)로 액션 샷이 존재하지 않으므로 최종 이벤트 구간이 구성되지 않기 때문에 비디오 요약 정보를 포함하지 않는다.

제3 비디오 데이터(1830)는 정면 클로즈업 샷(1832)이 존재하고, 정면 클로즈업 샷(1832)의 주위(전방 또는 후방)로 액션 샷(1831, 1833, 1834)이 존재하므로 정면 클로즈업 샷(1832)과 액션 샷(1831, 1833, 1834)로 최종 이벤트 구간이 구성되기 때문에 상기 최종 이벤트 구간에 대한 비디오 요약 정보를 포함한다.

도 19를 참조하면, 단계(1910)에서 상기 고속 비디오 요약 생성 장치는 도 20에 도시된 것과 같은 비디오 데이터의 샷에서 얼굴 영역(2000)을 검출한다.

단계(1920)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 얼굴 영역(2000)에서 눈 사이의 거리(d)를 측정한다.

단계(1930)에서 상기 고속 비디오 요약 생성 장치는 상기 측정된 눈 사이의 거리가 소정 임계값보다 큰지 여부를 판단한다.

상기 측정된 눈 사이의 거리가 상기 임계값보다 크면, 단계(1940)에서 상기 고속 비디오 요약 생성 장치는 상기 샷을 정면 클로즈업 샷으로 검출한다.

도 21을 참조하면, 단계(2110)에서 상기 고속 비디오 요약 생성 장치는 비디오 데이터의 샷을 블록으로 나눈 후 블록 별 주요 색을 추출한다.

단계(2120)에서 상기 고속 비디오 요약 생성 장치는 화염색에 대응하는 주요 색을 포함하는 블록의 개수가 소정 임계값보다 큰지 여부를 판단한다.

화염색에 대응하는 주요 색을 포함하는 블록의 개수가 상기 임계값보다 크면, 단계(2131)에서 상기 고속 비디오 요약 생성 장치는 에지 이미지(edge image)를 추출한다.

단계(2132)에서 상기 고속 비디오 요약 생성 장치는 상기 추출된 에지 밀도(density)가 소정 임계값보다 작은지 여부를 판단한다.

상기 에지 밀도가 상기 임계값보다 작으면, 단계(2133)에서 상기 고속 비디오 요약 생성 장치는 상기 에지 이미지의 차이값을 계산한다.

단계(2134)에서 상기 고속 비디오 요약 생성 장치는 상기 계산된 차이값이 상기 임계값보다 큰지 여부를 판단한다.

상기 차이값이 상기 임계값보다 크면, 단계(2135)에서 상기 고속 비디오 요 약 생성 장치는 상기 샷이 폭발 액션 샷으로 검출한다. 상기 폭발 액션 샷은 도 22에 도시된 제1 샷(2210) 및 제2 샷(2220)과 같이 에지의 형태가 뚜렷하지 않고, 에지의 변화가 심하다.

한편, 상기 화염색에 대응하는 주요색을 포함하는 블록의 개수가 상기 임계값보다 크지 않으면, 단계(2141)에서 상기 고속 비디오 요약 생성 장치는 흑백 영상을 추출한다.

단계(2142)에서 상기 고속 비디오 요약 생성 장치는 상기 추출된 흑백 영상의 차이를 계산한다.

단계(2143)에서 상기 고속 비디오 요약 생성 장치는 상기 계산된 차이값이 소정 임계값보다 큰지 여부를 판단한다.

상기 차이값이 상기 임계값보다 크면, 단계(2144)에서 상기 고속 비디오 요약 생성 장치는 상기 샷이 일반 액션 샷으로 검출한다. 상기 일반 액션 샷은 도 22에 도시된 제3 샷(2230) 및 제4 샷(2240)과 같이 화면의 차이가 크게 나타난다.

이와 같이, 본 발명의 또 다른 실시예에 따른 고속 비디오 요약 방법은 비디오 데이터가 영화와 연관된 데이터인 경우, 비디오 데이터에서 오디오 정보를 이용하여 음악 구간에 따른 이벤트 후보 구간을 추출하고, 상기 추출된 이벤트 후보 구간에서 비쥬얼 정보를 이용하여 정면 클로즈업 샷과 액션 샷으로 최종 이벤트 후보 구간을 검출하고, 상기 최종 이벤트 구간 정보에 대한 비디오 요약 정보를 생성할 수 있다.

본 발명에 따른 고속 비디오 요약 생성 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

본 발명에 따르면, 오디오 정보를 이용하여 이벤트 구간을 검출하여 검출된 이벤트 구간에 대해서만 비쥬얼 정보를 이용하여 비디오 요약 정보를 생성함으로써 요약의 의미 수준을 유지하면서도 비디오 요약 정보를 생성하는 처리 속도를 향상시킬 수 있다.

또한 본 발명에 따르면, 고속 인덱싱 및 요약 정보 생성 기능을 탑재한 기기를 통해 비디오 요약 정보를 제공하고, 중요한 이벤트 시청 기능을 제공할 수 있다.

또한 본 발명에 따르면, 스포츠 경기와 연관된 비디오 데이터에서 환호성, 아나운서의 고조도, 박수 소리와 같은 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성할 수 있다.

또한 본 발명에 따르면, 뉴스와 연관된 비디오 데이터에서 묵음 구간에 따른 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성할 수 있다.

또한 본 발명에 따르면, 드라마 또는 영화와 연관된 비디오 데이터에서 음악 구간에 따른 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성할 수 있다.

Claims

멀티 모달 기반의 고속 비디오 요약 생성 방법에 있어서,

비디오 데이터에서 오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 단계;

상기 검출된 이벤트 후보 구간에서 샷 변환을 검출하는 단계;

상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼(visual) 정보를 기반으로 최종 이벤트 구간을 검출하는 단계; 및

상기 추출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성하는 단계

를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제1항에 있어서,

오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 상기 단계는,

상기 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하는 단계; 및

상기 오디오 이벤트 구간으로 검출된 세그먼트를 중심으로 일정 구간을 상기 이벤트 후보 구간으로 검출하는 단계

를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제2항에 있어서,

상기 이벤트 후보 구간은 상기 세그먼트를 중심으로 전방 또는 후방의 일정 구간인 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제2항에 있어서,

상기 이벤트 후보 구간은 상기 검출된 세그먼트를 중심으로 전후방 일정 시간만큼의 구간인 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제2항에 있어서,

상기 비디오 데이터가 스포츠 경기와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 환호성, 아나운서의 고조도 또는 박수 소리에 따라 결정되는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제2항에 있어서,

상기 비디오 데이터가 뉴스와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 묵음 구간에 따라 결정되는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제2항에 있어서,

상기 비디오 데이터가 드라마 또는 영화와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 음악 구간 혹은 폭발음에 따라 결정되는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제1항에 있어서,

최종 이벤트 구간을 검출하는 상기 단계는,

상기 이벤트 후보 구간 내에서 이벤트 기준 샷을 검출하는 단계:

상기 검출된 이벤트 기준 샷을 중심으로 인접한 이벤트 구성 샷을 검출하는 단계; 및

상기 검출된 이벤트 구성 샷을 이용하여 샷 단위로 최종 이벤트 구간을 확정하는 단계

를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제8항에 있어서,

상기 비디오 데이터가 축구 경기와 연관된 데이터인 경우, 상기 이벤트 기준 샷은 패널티 영역 샷인 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제9항에 있어서,

상기 이벤트 기준 샷을 검출하는 단계는,

N*N 블록으로 프레임을 나누고, 각 블록마다 픽셀값에 대한 임계값을 결정하는 단계;

상기 각 블록내 픽셀값이 상기 임계값보다 크면 '255'로 할당하고, 상기 픽셀값이 상기 임계값보다 작으면 '0'으로 할당하는 단계;

상기 할당된 값이 '255'인 픽셀의 위치를 소정 식에 대입하고, 가장 많은 픽셀 수를 갖는 위치를 계산하는 단계;

상기 가장 많은 픽셀수가 임계값보다 큰 경우, 상기 계산된 위치가 패널티 라인의 기울기와 거리에 해당하는지 여부를 판단하는 단계; 및

상기 계산된 위치가 상기 패널티 라인의 기울기와 거리에 해당하는 경우, 상기 이벤트 기준 샷을 상기 패널티 영역 샷으로 검출하는 단계

를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제9항에 있어서,

상기 검출된 이벤트 기준 샷을 중심으로 인접한 이벤트 구성 샷을 검출하는 상기 단계는,

상기 패널티 영상 샷의 후방으로 클로즈업(Close up) 샷이 소정 개수 이상 존재하는지 여부를 판단하는 단계; 및

상기 소정 개수 이상의 클로즈업 샷이 존재하는 경우, 상기 클로즈업 샷을 상기 이벤트 구성 샷으로 설정하는 단계

를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제11항에 있어서,

상기 비디오 데이터가 축구 경기와 연관된 데이터인 경우,

최종 이벤트 구간을 확정하는 상기 단계는,

상기 패널티 영역 샷 및 상기 클로즈업 샷으로 상기 최종 이벤트 구간을 확정하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제8항에 있어서,

상기 비디오 데이터가 뉴스와 연관된 데이터인 경우,

상기 이벤트 기준 샷은 앵커 샷인 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제13항에 있어서,

이벤트 기준 샷을 검출하는 상기 단계는,

앵커 모델 후보 샷을 추출하는 단계;

상기 추출된 앵커 모델 후보 샷으로부터 앵커 모델을 생성하는 단계; 및

상기 생성된 앵커 모델과 키 프레임을 비교하여 상기 이벤트 기준 샷을 상기 앵커 샷으로 설정하는 단계

를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제8항에 있어서,

상기 비디오 데이터가 영화와 연관된 데이터인 경우,

상기 이벤트 기준 샷은 정면 클로즈업 샷이고,

상기 이벤트 구성 샷은 액션 샷인 것을 특징으로 하는 고속 비디오 요약 생 성 방법.
제15항에 있어서,

이벤트 기준 샷을 검출하는 상기 단계는,

상기 비디오 데이터의 샷에서 얼굴을 검출하는 단계;

상기 검출된 얼굴에서 눈 사이의 거리를 측정하는 단계; 및

상기 측정된 눈 사이의 거리가 임계값보다 큰 경우 상기 이벤트 기준 샷을 정면 클로즈업 샷으로 설정하는 단계

를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
제1항 내지 제16항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
멀티 모달 기반의 고속 비디오 요약 생성 장치에 있어서,

비디오 데이터에서 오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 이벤트 후보 구간 검출부;

상기 검출된 이벤트 후보 구간에서 샷 변환을 검출하는 샷 변환 검출부;

상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼(visual) 정보를 기반으로 최종 이벤트 구간을 검출하는 최종 이벤트 구간 검출부; 및

상기 추출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성하는 비디오 요약 정보 생성부

를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 장치.
제18항에 있어서,

상기 이벤트 후보 구간 검출부는,

상기 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 상기 오디오 이벤트 구간으로 검출된 세그먼트를 중심으로 일정 구간을 상기 이벤트 후보 구간으로 검출하는 것을 특징으로 하는 고속 비디오 요약 생성 장치.
제19항에 있어서,

상기 이벤트 후보 구간은 상기 세그먼트를 중심으로 전방 또는 후방의 일정 구간인 것을 특징으로 하는 고속 비디오 요약 생성 장치.