KR100650407B1 - 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치 - Google Patents

멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치 Download PDF

Info

Publication number
KR100650407B1
KR100650407B1 KR1020050109309A KR20050109309A KR100650407B1 KR 100650407 B1 KR100650407 B1 KR 100650407B1 KR 1020050109309 A KR1020050109309 A KR 1020050109309A KR 20050109309 A KR20050109309 A KR 20050109309A KR 100650407 B1 KR100650407 B1 KR 100650407B1
Authority
KR
South Korea
Prior art keywords
event
shot
section
video summary
detecting
Prior art date
Application number
KR1020050109309A
Other languages
English (en)
Inventor
정진국
문영수
엄기완
김지연
김형국
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050109309A priority Critical patent/KR100650407B1/ko
Priority to JP2006221615A priority patent/JP4532449B2/ja
Priority to US11/520,741 priority patent/US9251853B2/en
Application granted granted Critical
Publication of KR100650407B1 publication Critical patent/KR100650407B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 오디오 정보를 기반으로 하여 이벤트 후보 구간을 검출한 후 검출된 이벤트 후보 구간에 대해서만 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하고 검출된 최종 이벤트 구간에 대해 비디오 요약 정보를 생성하는 방법 및 그 장치에 관한 것이다. 본 발명은 비디오 데이터에서 오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 단계와, 상기 검출된 이벤트 후보 구간에서 샷 변환을 검출하는 단계와, 상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼(visual) 정보를 기반으로 최종 이벤트 구간을 검출하는 단계, 및 상기 추출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법을 제공한다. 본 발명에 의하면, 오디오 정보를 이용하여 이벤트 구간을 검출하여 검출된 이벤트 구간에 대해서만 비쥬얼 정보를 이용하여 비디오 요약 정보를 생성함으로써 요약의 의미 수준을 유지하면서도 비디오 요약 정보를 생성하는 처리 속도를 향상시킬 수 있다.
멀티 모달, 비디오 정보, 오디오 정보, 요약, 생성

Description

멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치{METHOD AND APPARATUS FOR GENERATING VIDEO ABSTRACT INFORMATION AT HIGH SPEED ON BASED MULTI-MODAL}
도 1은 본 발명에 따른 고속 비디오 요약 생성 장치의 구성을 나타내는 도면이다.
도 2는 본 발명에 따른 고속 비디오 요약 생성 방법의 흐름을 나타내는 도면이다.
도 3은 본 발명에 따른 고속 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간의 일례를 나타내는 도면이다.
도 4는 본 발명에 따른 고속 비디오 요약 생성 방법에 있어서, 오디오 이벤트에 따른 이벤트 후보 구간의 일례를 나타내는 도면이다.
도 5는 본 발명에 따른 고속 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 검출하는 과정을 나타내는 도면이다.
도 6은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 검출하는 과정을 나타내는 도면이다.
도 7은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 검출하는 일례를 나타내는 도면이다.
도 8은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 패널티 영역 샷을 검출하는 과정을 나타내는 도면이다.
도 9는 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 패널티 영역 샷을 2치화한 일례를 나타내는 도면이다.
도 10은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 클로즈업 샷을 검출하는 과정을 나타내는 도면이다.
도 11은 본 발명의 다른 실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 공간 윈도우의 이동을 나타내는 도면이다.
도 12는 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 이벤트 구간을 확정하는 과정을 나타내는 도면이다.
도 13은 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 이벤트에 의한 이벤트 구간을 확정하는 일례를 나타내는 도면이다.
도 14는 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 샷을 확정하는 과정을 나타내는 도면이다.
도 15는 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 모델 후보 샷 추출 과정을 나타내는 도면이다.
도 16은 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 모델 생성 과정을 나타내는 도면이다.
도 17은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 이벤트를 확정하는 과정을 나타내는 도면이다.
도 18은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 이벤트의 일례를 나타내는 도면이다.
도 19는 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 정면 클로즈업 샷을 검출하는 과정을 나타내는 도면이다.
도 20은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 정면 클로즈업 샷의 일례를 나타내는 도면이다.
도 21은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 샷을 검출하는 과정을 나타내는 도면이다.
도 22는 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 샷의 일례를 나타내는 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 고속 비디오 요약 생성 장치
110: 이벤트 후보 구간 검출부
120: 샷 변환 검출부
130: 최종 이벤트 구간 검출부
140: 비디오 요약 정보 생성부
본 발명은 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 오디오 정보를 기반으로 하여 이벤트 후보 구간을 검출한 후 검출된 이벤트 후보 구간에 대해서만 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하고 검출된 최종 이벤트 구간에 대해 비디오 요약 정보를 생성하는 방법 및 그 장치에 관한 것이다.
종래 축구 비디오 컨텐츠 요약 방법으로 미국 공개특허 US2004/0017389호는 재생(Replay), 라이브 이벤트(live event), 셋업 이벤트(Setup event)를 이용하여 비디오 컨텐츠를 요약한다. 하지만, 종래 축구 비디오 컨텐츠 요약 방법은 비쥬얼 정보와 오디오 정보를 개별적으로 처리하여 비디오 데이터를 요약하므로 처리 속도가 느린 문제점이 있다.
한편, 멀티미디어 컨텐츠 인덱싱 방법으로 미국 등록특허 US6,714,909호는 뉴스 컨텐츠에 대해 비쥬얼, 오디오, 텍스트와 같은 멀티 모달 정보를 이용하여 요약 생성, 화자 인식, 주제 인식 등과 같이 높은 수준의 뉴스 정보를 생성한다. 하지만, 종래 멀티미디어 컨텐츠 인덱싱 방법도 역시 비쥬얼 정보와 오디오 정보를 개별적으로 처리하여 비디오 요약 정보를 생성함으로써 그 처리 속도가 느린 문제점이 있다.
이와 같이, 종래 멀티 모달 정보 기반의 요약 방법은 멀티 모달 처리를 위해서 비쥬얼 정보와 오디오 정보를 개별적으로 처리한 후 그 결과를 통합 적용하여 요약을 생성하므로 그 처리 시간이 비교적 오래 걸리는 문제점이 있다. 즉, 종래 멀티 모달 정보 기반의 요약 방법은 특히 비쥬얼 정보를 기반으로 요약하는 경우 예를 들어 HD 영상 2시간 분량인 18GB 비디오 데이터 중에 비쥬얼 정보가 약 15GB이므로 계산 처리할 비쥬얼 정보의 용량이 매우 크기 때문에 이벤트 검출 및 요약 생성 속도가 현저하게 느려지는 문제점이 있다.
따라서, 비디오 요약을 생성하기 위한 처리 속도를 향상시킬 수 있는 방법이 절실하게 요청되어 오고 있다.
본 발명은 상기와 같은 종래기술을 개선하기 위해 안출된 것으로서, 비디오 데이터에서 오디오 정보를 이용하여 이벤트 후보 구간을 검출한 후 이벤트 후보 구간에 대해서만 비쥬얼 정보를 처리하여 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성하는 방법 및 그 장치를 제공하는 것을 목적으로 한다.
본 발명의 다른 목적은 비디오 데이터에서 오디오 정보와 비쥬얼 정보를 순차적으로 처리하여 비디오 요약 정보에 대한 의미 수준을 유지하면서도 그 처리 속도를 향상시킬 수 있는 비디오 요약 정보 생성 방법 및 그 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 스포츠 경기와 연관된 비디오 데이터에서 환호성, 아나운서의 고조도, 박수 소리와 같은 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성하는 방법 및 그 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 뉴스와 연관된 비디오 데이터에서 묵음 구간에 따른 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성하는 방법 및 그 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 드라마 또는 영화와 연관된 비디오 데이터에서 음악 구간에 따른 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성하는 방법 및 그 장치를 제공하는 것이다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명은 비디오 데이터에서 오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 단계와, 상기 검출된 이벤트 후보 구간에서 샷 변환을 검출하는 단계와, 상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼(visual) 정보를 기반으로 최종 이벤트 구간을 검출하는 단계, 및 상기 추출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법을 제공한다.
본 발명의 일측에 따르는 멀티 모달 기반의 고속 비디오 요약 생성 장치는 비디오 데이터에서 오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 이벤트 후보 구간 검출부와, 상기 검출된 이벤트 후보 구간에서 샷 변환을 검출하는 샷 변환 검출부와, 상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼(visual) 정보를 기반으로 최종 이벤트 구간을 검출하는 최종 이벤트 구간 검 출부, 및 상기 추출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성하는 비디오 요약 정보 생성부를 포함한다.
이하에서는 첨부된 도면들을 참조하여 본 발명의 실시예에 따른 고속 비디오 요약 생성 방법 및 그 장치를 상세히 설명한다.
도 1은 본 발명에 따른 고속 비디오 요약 생성 장치의 구성을 나타내는 도면이다.
도 1을 참조하면, 고속 비디오 요약 생성 장치(100)는 이벤트 후보 구간 검출부(110), 샷 변환 검출부(120), 최종 이벤트 구간 검출부(130) 및 비디오 요약 정보 생성부(140)를 포함한다.
이벤트 후보 구간 검출부(110)는 비디오 데이터에서 오디오 정보를 기반으로 오디오 이벤트를 검출하고, 상기 검출된 오디오 이벤트를 이용하여 이벤트 후보 구간을 검출한다. 상기 이벤트 후보 구간은 상기 비디오 데이터에서 이벤트가 발생할 가능성이 큰 구간으로 상기 비디오 데이터의 종류에 따라 각기 다른 오디오 이벤트 특성을 가질 수 있다.
이벤트 후보 구간 검출부(110)는 상기 비디오 데이터가 예를 들어 스포츠 경기와 연관된 데이터인 경우 환호성, 아나운서의 고조도, 박수 소리 등과 같은 오디오 이벤트를 이용하여 상기 이벤트 후보 구간을 검출할 수 있다.
이벤트 후보 구간 검출부(110)는 상기 비디오 데이터가 예를 들어 뉴스와 연관된 데이터인 경우 묵음 구간과 같은 오디오 이벤트를 이용하여 상기 이벤트 후보 구간을 검출할 수 있다.
이벤트 후보 구간 검출부(110)는 상기 비디오 데이터가 예를 들어 드라마 또는 영화와 연관된 데이터인 경우 배경 음악 구간 혹은 폭발음과 같은 오디오 이벤트를 이용하여 상기 이벤트 후보 구간을 검출할 수 있다.
이벤트 후보 구간 검출부(110)는 상기 오디오 이벤트를 SVM(Support Vector Machine) 또는 GMM(Gaussian Mixture Model) 등과 같은 분류자(classifier)를 이용하여 모델링(modeling)하여 상기 이벤트 후보 구간을 검출할 수 있다.
이벤트 후보 구간 검출부(110)는 도 4에 도시된 것과 같은 오디오 이벤트 구간으로 검출된 세그먼트(400)를 중심으로 전방(401) 또는 후방(402)의 일정 구간을 이벤트 후보 구간(410)으로 검출할 수 있다. 상기 이벤트 후보 구간은 상기 오디오 이벤트가 발생된 전후의 구간이 상기 비디오 데이터에서 중요한 장면일 가능성이 높다는 이유에서 결정된다.
이벤트 후보 구간 검출부(110)는 상기 오디오 이벤트 구간으로 검출된 세그먼트를 중심으로 전후방으로 일정 시간만큼의 구간을 상기 이벤트 후보 구간으로 검출할 수 있다. 상기 이벤트 후보 구간은 예를 들어 상기 오디오 이벤트 구간의 전방 10초, 상기 오디오 이벤트 구간의 후방 10초, 또는 상기 오디오 이벤트 구간의 전후방 10초만큼의 구간을 포함할 수 있다.
샷 변환 검출부(120)는 비쥬얼(visual) 정보 처리의 효율성을 높이고 소정 최종 이벤트 구간을 샷 단위로 결정하기 위해 상기 이벤트 후보 구간에 대한 샷 변환을 검출한다.
최종 이벤트 구간 검출부(130)는 상기 이벤트 후보 구간에서 상기 검출된 샷 정보 및 상기 비쥬얼 정보를 이용하여 최종 이벤트 구간을 추출한다.
즉, 최종 이벤트 구간 검출부(130)는 상기 이벤트 후보 구간에서 소정 이벤트 기준 샷을 검출하고, 상기 검출된 이벤트 기준 샷을 중심으로 인접한 이벤트 구성 샷을 검출하고, 상기 검출된 이벤트 기준 샷과 상기 이벤트 구성 샷을 이용하여 최종 이벤트 구간을 검출할 수 있다.
비디오 요약 정보 생성부(140)는 상기 검출된 최종 이벤트 구간을 조합하여 상기 비디오 데이터에 대한 비디오 요약 정보를 생성한다.
도 2는 본 발명에 따른 고속 비디오 요약 생성 방법의 흐름을 나타내는 도면이다.
도 2를 참조하면, 단계(210)에서 고속 비디오 요약 생성 장치는 도 3에 도시된 것과 같은 비디오 데이터(300)에서 오디오 정보를 기반으로 오디오 이벤트를 검출하고, 상기 검출된 오디오 이벤트를 이용하여 이벤트 후보 구간(311, 312, 313)을 검출한다.
본 발명의 일실시예에 따른 비디오 데이터가 스포츠 경기와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 환호성, 아나운서의 고조도 또는 박수 소리 등과 같은 오디오 데이터가 발생됨에 따라 결정될 수 있다.
또한, 본 발명의 다른 실시예에 따른 비디오 데이터가 뉴스와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 묵음 구간에 따라 결정될 수 있다.
또한, 본 발명의 또 다른 실시예에 따른 비디오 데이터가 드라마 또는 영화와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 음악 구간 혹은 폭발음에 따 라 결정될 수 있다.
즉, 단계(210)에서 상기 고속 비디오 요약 생성 장치는 상기 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 상기 검출된 오디오 이벤트 구간으로 검출된 세그먼트를 중심으로 일정 구간을 상기 이벤트 후보 구간으로 검출할 수 있다. 상기 이벤트 후보 구간은 상기 검출된 오디오 이벤트를 기준으로 전방 또는 후방의 일정 구간일 수 있다. 또한, 상기 이벤트 후보 구간은 예를 들어 도 4에 도시된 것과 같이 오디오 이벤트(400)를 기준으로 전방 N초 구간(401) 및 후방 N초 구간(402)일 수 있다.
단계(220)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 이벤트 후보 구간에서 도 3에 도시된 것과 같이 샷 변환(321~326)을 검출한다.
단계(230)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼 정보를 기반으로 최종 이벤트 구간(331, 332)을 검출한다.
단계(240)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성한다.
이와 같이, 본 발명에 따른 고속 비디오 요약 생성 방법은 오디오 정보와 비디오 정보를 순차적으로 처리함으로써 종래 멀티 모달 요약 방법과 대비할 때 의미 수준을 유지하면서도 그 처리 속도를 향상시킬 수 있다.
도 5는 본 발명에 따른 고속 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 검출하는 과정을 나타내는 도면이다.
도 5를 참조하면, 단계(510)에서 상기 고속 비디오 요약 생성 장치는 상기 이벤트 후보 구간 내에서 소정 이벤트 기준 샷을 검출한다.
본 발명의 일실시예에 따른 비디오 데이터가 축구 경기와 연관된 데이터인 경우, 상기 이벤트 기준 샷은 패널티 영역 샷일 수 있다.
또한, 본 발명의 다른 실시예에 따른 비디오 데이터가 뉴스와 연관된 데이터인 경우, 상기 이벤트 기준 샷은 앵커 샷일 수 있다.
또한, 본 발명의 또 다른 실시예에 따른 비디오 데이터가 영화와 연관된 데이터인 경우, 상기 이벤트기준 샷은 정면 클로즈업 샷일 수 있다.
단계(520)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 이벤트 기준 샷을 중심으로 인접한 이벤트 구성 샷을 검출한다.
본 발명의 일실시예에 따른 고속 비디오 요약 생성 방법은 비디오 데이터가 축구 경기와 연관된 데이터인 경우, 상기 패널티 영상 샷의 후방으로 소정 개수 이상의 클로즈업 샷이 존재하면, 상기 클로즈업 샷을 상기 이벤트 구성 샷으로 검출할 수 있다. 즉, 상기 고속 비디오 요약 생성 장치는 예를 들어 상기 패널티 영상 샷의 후방으로 2개 이상의 클로즈업 샷이 존재하면, 상기 클로즈업 샷을 상기 이벤트 구성 샷으로 검출할 수 있다.
본 발명의 다른 실시예예 따른 비디오 데이터가 영화와 연관된 데이터인 경우, 상기 이벤트 구성 샷은 액션 샷일 수 있다.
단계(530)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 이벤트 기준 샷 및 상기 이벤트 구성 샷을 이용하여 샷 단위로 최종 이벤트 구간을 확정한 다.
상기 고속 비디오 요약 생성 장치는 본 발명의 일실시예에 따른 비디오 데이터가 축구 경기와 연관된 데이터인 경우, 상기 패널티 영역 샷 및 상기 클로즈업 샷으로 상기 최종 이벤트 구간을 확정할 수 있다.
도 6은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 검출하는 과정을 나타내는 도면이다.
도 6을 참조하면, 단계(610)에서 상기 고속 비디오 요약 생성 장치는 상기 이벤트 후보 구간에서 비쥬얼 정보를 이용하여 패널티 영역 샷이 존재하는지 여부를 판단한다. 상기 이벤트 후보 구간은 상기 축구 경기에 대한 비디오 데이터인 경우, 상기 비디오 데이터에서 오디오 정보를 기반으로 예를 들어 환호성, 아나운서의 고조도 또는 박수 소리 등과 같이 오디오 이벤트가 발생되는 구간의 전후방 일정 구간으로 결정될 수 있다.
상기 패널티 영역 샷이 존재하면, 단계(620)에서 상기 고속 비디오 요약 생성 장치는 상기 패널티 영역 샷을 이벤트 기준 샷으로 검출한다.
단계(630)에서 상기 고속 비디오 요약 생성 장치는 상기 패널티 영역 샷의 후방으로 클로즈업 샷이 소정 개수 이상 존재하는지 여부를 판단한다. 상기 소정 개수는 예를 들어 2개일 수 있다.
상기 클로즈업 샷이 소정 개수 이상 존재하면, 단계(640)에서 상기 고속 비디오 요약 생성 장치는 상기 클로즈업 샷을 이벤트 구성 샷으로 검출한다. 예를 들어 상기 클로즈업 샷이 2개 이상 존재하면, 상기 고속 비디오 요약 생성 장치는 상기 클로즈업 샷을 이벤트 구성 샷으로 검출할 수 있다.
단계(650)에서 상기 고속 비디오 요약 생성 장치는 상기 패널티 영역 샷과 상기 클로즈업 샷으로 최종 이벤트 구간을 확정한다.
도 7은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 검출하는 일례를 나타내는 도면이다.
도 7을 참조하면, 제1 비디오 데이터(710)는 예를 들어 골 이벤트가 발생한 경우로서 패널티 영역 샷(711)과 패널티 영역 샷(711)의 후방으로 클로즈업 샷(712~714)이 3개 존재하므로 패널티 영역 샷(711)과 클로즈업 샷(712)이 최종 이벤트 구간으로 확정될 수 있다. 따라서, 제1 비디오 데이터(710)는 상기 확정된 최종 이벤트 구간에서 골 이벤트가 발생되었음을 나타내는 비디오 요약 정보를 포함할 수 있다.
제2 비디오 데이터(720)는 패널티 영역 샷(724)을 포함하고 있지만 패널티 영역 샷(724)의 후방으로 클로즈업 샷이 존재하지 않으므로 최종 이벤트 구간으로 확정될 수 없다. 따라서, 제2 비디오 데이터(720)는 확정된 최종 이벤트 구간이 존재하지 않으므로 비디오 요약 정보도 포함되지 않는다.
제3 비디오 데이터(730)는 예를 들어 슛 이벤트가 발생한 경우로서 패널티 영역 샷(732)과 패널티 영역 샷(732)의 후방으로 클로즈업 샷(723, 724)이 2개 존재하므로 패널티 영역 샷(732)과 클로즈업 샷(723)이 최종 이벤트 구간으로 확정될 수 있다. 따라서, 제3 비디오 데이터(730)는 상기 확정된 최종 이벤트 구간에서 슛 이벤트가 발생되었음을 나타내는 비디오 요약 정보를 포함할 수 있다.
도 8은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 패널티 영역 샷을 검출하는 과정을 나타내는 도면이다.
도 8을 참조하면, 단계(810)에서 상기 고속 비디오 요약 생성 장치는 비디오 프레임을 N*N 블록으로 나눈다. 상기 고속 비디오 요약 생성 장치는 예를 들어 상기 비디오 프레임을 16*16 블록으로 나눌 수 있다.
단계(820)에서 상기 고속 비디오 요약 생성 장치는 각 블록마다 픽셀 Y 값에 대한 임계값(T)를 수학식 1에 의해 결정한다.
Figure 112005065723282-pat00001
α는 밝기 임계값 상수를 나타낸다.
단계(830)에서 상기 고속 비디오 요약 생성 장치는 상기 각 블록 내 픽셀 Y값이 임계값보다 크면 '255'로 할당하고, 상기 픽셀 Y값이 상기 임계값보다 작으면 '0'으로 할당한다. 즉, 상기 고속 비디오 요약 생성 장치는 비디오 데이터를 상기 임계값과 비교한 결과에 따라 '255' 또는 '0'으로 2치화(Binarization)한다.
단계(840)에서 상기 고속 비디오 요약 생성 장치는 상기 할당된 결과 값이 '255'인 픽셀의 위치(x, y)를 수학식 2에 대입한다.
x cosθ + y sinθ = ρ
단계(850)에서 상기 고속 비디오 요약 생성 장치는 가장 많은 픽셀 수(MaxPixelNum)를 갖는 θ, ρ를 계산한다.
상기 고속 비디오 요약 생성 장치는 단계(840) 및 단계(850)를 통해 허프 변환(Hough Transform)을 수행한다.
단계(860)에서 상기 고속 비디오 요약 생성 장치는 상기 가장 많은 픽셀 수(MaxPixelNum)가 소정 임계값보다 큰지 여부를 판단한다.
상기 가장 많은 픽셀 수가 상기 임계값보다 큰 경우, 단계(870)에서 상기 고속 비디오 요약 생성 장치는 상기 계산된 θ, ρ가 패널티 라인의 기울기와 거리에 해당하는지 여부를 판단한다.
상기 계산된 θ, ρ가 패널티 라인의 기울기와 거리에 해당하는 경우, 단계(880)에서 상기 고속 비디오 요약 생성 장치는 상기 비디오 프레임을 패널티 영역 샷으로 결정한다.
도 9는 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 패널티 영역 샷을 2치화한 일례를 나타내는 도면이다.
도 9를 참조하면, 제1 영상(910)은 패널티 영역 샷에 대한 원래 영상이고, 제2 영상(920)은 단계(810) 내지 단계(830)를 통해 제1 영상(910)으로부터 2치화(binarization)된 영상을 나타낸다.
도 10은 본 발명의 일실시예에 따른 축구 경기에 대한 비디오 요약 생성 방법에 있어서, 클로즈업 샷을 검출하는 과정을 나타내는 도면이다.
도 10을 참조하면, 단계(1010)에서 상기 고속 비디오 요약 생성 장치는 소 정 샷으로부터 주요 색(dominant color)을 추출한다. 본 발명에 따른 고속 비디오 요약 생성 장치는 비디오 프레임들중에서 일부분만을 사용하기 때문에 각 프레임 내에서 필드 색을 추출하도록 한다.
단계(1020)에서 상기 고속 비디오 요약 생성 장치는 상기 추출된 주요 색의 비율이 소정 임계값보다 높은 색을 추출하여 필드 색 후보로 정의한다.
단계(1030)에서 상기 고속 비디오 요약 생성 장치는 상기 정의된 필드 색 후보와 미리 모델링된 필드 색을 비교한다.
단계(1040)에서 상기 고속 비디오 요약 생성 장치는 상기 비교된 필드 색 후보와 상기 모델링된 필드 색을 비교한 결과 차이 값이 소정 임계값보다 작은지 여부를 판단한다.
상기 차이값이 상기 임계값보다 작지 않으면, 단계(1045)에서 상기 고속 비디오 요약 생성 장치는 상기 샷을 클로즈업 샷으로 결정한다.
상기 차이값이 상기 임계값보다 작으면, 단계(1050)에서 상기 고속 비디오 요약 생성 장치는 상기 필드 색 후보를 필드 색으로 정의한다.
단계(1060)에서 상기 고속 비디오 요약 생성 장치는 소정 공간 윈도우 내에서 상기 정의된 필드 색의 비율을 계산한다.
단계(1070)에서 상기 고속 비디오 요약 생성 장치는 상기 계산된 비율이 소정 임계값보다 작은지 여부를 판단한다.
상기 계산된 비율이 상기 임계값보다 작으면, 단계(1045)와 마찬가지로 상기 고속 비디오 요약 생성 장치는 상기 샷을 클로즈업 샷으로 결정한다.
상기 계산된 비율이 상기 임계값보다 작지 않으면, 단계(1080)에서 상기 고속 비디오 요약 생성 장치는 도 11에 도시된 것과 같은 공간 윈도우(1100)를 이동시킨 후 단계(1060)부터의 동작을 다시 수행한다.
이와 같이, 본 발명의 일실시예에 따른 비디오 요약 생성 방법은 스포츠 경기와 연관된 비디오 데이터에서 환호성, 아나운서의 고조도, 박수 소리와 같은 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성할 수 있다.
도 12는 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 최종 이벤트 구간을 확정하는 과정을 나타내는 도면이다.
도 12를 참조하면, 단계(1210)에서 상기 고속 비디오 요약 생성 장치는 비디오 데이터가 뉴스와 연관된 데이터인 경우, 상기 비디오 데이터의 샷에서 앵커 샷이 존재하는지 여부를 판단한다.
상기 고속 비디오 요약 생성 장치는 상기 비디오 데이터가 뉴스와 연관된 데이터인 경우, 묵음 구간에 따라 이벤트 후보 구간을 검출하고, 상기 검출된 이벤트 후보 구간에서 발생되는 샷 변환을 검출한 후 상기 검출된 샷 변환 지점의 비디오 데이터로부터 앵커 샷이 존재하는지 여부를 판단할 수 있다.
상기 앵커 샷이 존재하면, 단계(1220)에서 상기 고속 비디오 요약 생성 장치는 상기 앵커 샷을 이벤트 기준 샷으로 설정한다.
단계(1230)에서 상기 고속 비디오 요약 생성 장치는 상기 앵커 샷의 후방으 로 앵커 샷이 아닌 샷(Non anchor shot)이 존재하는지 여부를 판단한다.
상기 앵커 샷의 후방으로 앵커 샷이 아닌 샷이 존재하면, 단계(1240)에서 상기 고속 비디오 요약 생성 장치는 상기 앵커 샷이 아닌 샷을 이벤트 구성 샷으로 설정한다.
단계(1250)에서 상기 고속 비디오 요약 생성 장치는 최종 이벤트 구간을 상기 앵커 샷으로 확정한다.
도 13은 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 이벤트에 의한 최종 이벤트 구간을 확정하는 일례를 나타내는 도면이다.
도 13을 참조하면, 제1 비디오 데이터(1310)는 앵커 샷(1311) 및 앵커 샷(1311)의 후방으로 앵커 샷이 아닌 샷(1312~1314)이 존재하므로 앵커 샷(1311)에 대한 비디오 요약 정보를 포함한다.
제2 비디오 데이터(1320)는 앵커 샷이 존재하지 않으므로 비디오 요약 정보를 포함하지 않는다.
제3 비디오 데이터(1330)는 앵커 샷(1332) 및 앵커 샷(1332)의 후방으로 앵커 샷이 아닌 샷(1333, 1334)이 존재하므로 앵커 샷(1332)에 대한 비디오 요약 정보를 포함한다.
도 14는 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 샷을 확정하는 과정을 나타내는 도면이다.
도 14를 참조하면, 단계(1410)에서 상기 고속 비디오 요약 생성 장치는 앵 커 모델 후보 샷을 추출한다. 상기 앵커 모델 후보 샷을 추출하는 과정은 도 15를 참조하여 하기에서 보다 상세히 설명한다.
도 15는 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 모델 후보 샷 추출 과정을 나타내는 도면이다.
도 15를 참조하면, 단계(1510)에서 상기 고속 비디오 요약 생성 장치는 피부색 검출을 이용하여 얼굴을 검출한다.
단계(1520)에서 상기 고속 비디오 요약 생성 장치는 검출된 얼굴의 위치 정보를 이용하여 필터링한다.
단계(1530)에서 상기 고속 비디오 요약 생성 장치는 얼굴을 포함하는 사각형(Bounding Box)의 aspect ratio를 이용하여 필터링한다.
단계(1540)에서 상기 고속 비디오 요약 생성 장치는 얼굴을 포함하는 사각형(Bounding Box) 내 피부색의 비율을 이용하여 필터링한다.
단계(1420)에서 상기 고속 비디오 요약 생성 장치는 앵커 모델을 생성한다. 상기 앵커 모델을 생성하는 과정은 도 16을 참조하여 하기에서 보다 상세히 설명한다.
도 16은 본 발명의 다른 실시예에 따른 뉴스에 대한 비디오 요약 생성 방법에 있어서, 앵커 모델 생성 과정을 나타내는 도면이다.
도 16을 참조하면, 단계(1610)에서 상기 고속 비디오 요약 생성 장치는 색 정보를 이용하여 얼굴 클러스터링(clustering)을 수행한다.
단계(1620)에서 상기 고속 비디오 요약 생성 장치는 클러스터(cluster) 내 개수를 이용하여 앵커 클러스터를 선택한다.
단계(1630)에서 상기 고속 비디오 요약 생성 장치는 중앙/좌/우 앵커 모델을 생성한다.
단계(1430)에서 상기 고속 비디오 요약 생성 장치는 상기 생성된 앵커 모델과 키 프레임을 비교하여 앵커 샷을 확정한다.
이와 같이, 본 발명의 다른 실시예에 따른 비디오 요약 생성 방법은 뉴스와 연관된 비디오 데이터에서 묵음 구간에 따른 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성할 수 있다.
도 17은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 이벤트를 확정하는 과정을 나타내는 도면이다.
도 17을 참조하면, 단계(1710)에서 상기 고속 비디오 요약 생성 장치는 정면 클로즈업 샷이 존재하는지 여부를 판단한다.
상기 정면 클로즈업 샷이 존재하면, 단계(1720)에서 상기 고속 비디오 요약 생성 장치는 상기 정면 클로즈업 샷을 이벤트 기준 샷으로 설정한다.
단계(1730)에서 상기 고속 비디오 요약 생성 장치는 상기 정면 클로즈 샷의 주위(전방 또는 후방)로 액션 샷이 존재하는지 여부를 판단한다.
상기 액션 샷이 존재하면, 단계(1740)에서 상기 고속 비디오 요약 생성 장치는 상기 액션 샷을 이벤트 구성 샷으로 설정한다.
단계(1750)에서 상기 고속 비디오 요약 생성 장치는 상기 최종 이벤트 구간 을 상기 클로즈업 샷 및 상기 액션 샷으로 설정한다.
도 18은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 이벤트의 일례를 나타내는 도면이다.
도 18을 참조하면, 제1 비디오 데이터(1810)는 정면 클로즈업 샷(1814)이 존재하지만 정면 클로즈업 샷(1814)의 주위(전방 또는 후방)로 액션 샷이 존재하지 않으므로 최종 이벤트 구간이 구성되지 않기 때문에 비디오 요약 정보를 포함하지 않는다.
제2 비디오 데이터(1820)는 정면 클로즈업 샷(1823)이 존재하지만 정면 클로즈업 샷(1823)의 주위(전방 또는 후방)로 액션 샷이 존재하지 않으므로 최종 이벤트 구간이 구성되지 않기 때문에 비디오 요약 정보를 포함하지 않는다.
제3 비디오 데이터(1830)는 정면 클로즈업 샷(1832)이 존재하고, 정면 클로즈업 샷(1832)의 주위(전방 또는 후방)로 액션 샷(1831, 1833, 1834)이 존재하므로 정면 클로즈업 샷(1832)과 액션 샷(1831, 1833, 1834)로 최종 이벤트 구간이 구성되기 때문에 상기 최종 이벤트 구간에 대한 비디오 요약 정보를 포함한다.
도 19는 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 정면 클로즈업 샷을 검출하는 과정을 나타내는 도면이다.
도 19를 참조하면, 단계(1910)에서 상기 고속 비디오 요약 생성 장치는 도 20에 도시된 것과 같은 비디오 데이터의 샷에서 얼굴 영역(2000)을 검출한다.
단계(1920)에서 상기 고속 비디오 요약 생성 장치는 상기 검출된 얼굴 영역(2000)에서 눈 사이의 거리(d)를 측정한다.
단계(1930)에서 상기 고속 비디오 요약 생성 장치는 상기 측정된 눈 사이의 거리가 소정 임계값보다 큰지 여부를 판단한다.
상기 측정된 눈 사이의 거리가 상기 임계값보다 크면, 단계(1940)에서 상기 고속 비디오 요약 생성 장치는 상기 샷을 정면 클로즈업 샷으로 검출한다.
도 21은 본 발명의 또 다른 실시예에 따른 영화에 대한 비디오 요약 생성 방법에 있어서, 액션 샷을 검출하는 과정을 나타내는 도면이다.
도 21을 참조하면, 단계(2110)에서 상기 고속 비디오 요약 생성 장치는 비디오 데이터의 샷을 블록으로 나눈 후 블록 별 주요 색을 추출한다.
단계(2120)에서 상기 고속 비디오 요약 생성 장치는 화염색에 대응하는 주요 색을 포함하는 블록의 개수가 소정 임계값보다 큰지 여부를 판단한다.
화염색에 대응하는 주요 색을 포함하는 블록의 개수가 상기 임계값보다 크면, 단계(2131)에서 상기 고속 비디오 요약 생성 장치는 에지 이미지(edge image)를 추출한다.
단계(2132)에서 상기 고속 비디오 요약 생성 장치는 상기 추출된 에지 밀도(density)가 소정 임계값보다 작은지 여부를 판단한다.
상기 에지 밀도가 상기 임계값보다 작으면, 단계(2133)에서 상기 고속 비디오 요약 생성 장치는 상기 에지 이미지의 차이값을 계산한다.
단계(2134)에서 상기 고속 비디오 요약 생성 장치는 상기 계산된 차이값이 상기 임계값보다 큰지 여부를 판단한다.
상기 차이값이 상기 임계값보다 크면, 단계(2135)에서 상기 고속 비디오 요 약 생성 장치는 상기 샷이 폭발 액션 샷으로 검출한다. 상기 폭발 액션 샷은 도 22에 도시된 제1 샷(2210) 및 제2 샷(2220)과 같이 에지의 형태가 뚜렷하지 않고, 에지의 변화가 심하다.
한편, 상기 화염색에 대응하는 주요색을 포함하는 블록의 개수가 상기 임계값보다 크지 않으면, 단계(2141)에서 상기 고속 비디오 요약 생성 장치는 흑백 영상을 추출한다.
단계(2142)에서 상기 고속 비디오 요약 생성 장치는 상기 추출된 흑백 영상의 차이를 계산한다.
단계(2143)에서 상기 고속 비디오 요약 생성 장치는 상기 계산된 차이값이 소정 임계값보다 큰지 여부를 판단한다.
상기 차이값이 상기 임계값보다 크면, 단계(2144)에서 상기 고속 비디오 요약 생성 장치는 상기 샷이 일반 액션 샷으로 검출한다. 상기 일반 액션 샷은 도 22에 도시된 제3 샷(2230) 및 제4 샷(2240)과 같이 화면의 차이가 크게 나타난다.
이와 같이, 본 발명의 또 다른 실시예에 따른 고속 비디오 요약 방법은 비디오 데이터가 영화와 연관된 데이터인 경우, 비디오 데이터에서 오디오 정보를 이용하여 음악 구간에 따른 이벤트 후보 구간을 추출하고, 상기 추출된 이벤트 후보 구간에서 비쥬얼 정보를 이용하여 정면 클로즈업 샷과 액션 샷으로 최종 이벤트 후보 구간을 검출하고, 상기 최종 이벤트 구간 정보에 대한 비디오 요약 정보를 생성할 수 있다.
본 발명에 따른 고속 비디오 요약 생성 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
본 발명에 따르면, 오디오 정보를 이용하여 이벤트 구간을 검출하여 검출된 이벤트 구간에 대해서만 비쥬얼 정보를 이용하여 비디오 요약 정보를 생성함으로써 요약의 의미 수준을 유지하면서도 비디오 요약 정보를 생성하는 처리 속도를 향상시킬 수 있다.
또한 본 발명에 따르면, 고속 인덱싱 및 요약 정보 생성 기능을 탑재한 기기를 통해 비디오 요약 정보를 제공하고, 중요한 이벤트 시청 기능을 제공할 수 있다.
또한 본 발명에 따르면, 스포츠 경기와 연관된 비디오 데이터에서 환호성, 아나운서의 고조도, 박수 소리와 같은 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성할 수 있다.
또한 본 발명에 따르면, 뉴스와 연관된 비디오 데이터에서 묵음 구간에 따른 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성할 수 있다.
또한 본 발명에 따르면, 드라마 또는 영화와 연관된 비디오 데이터에서 음악 구간에 따른 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 검출된 오디오 이벤트 구간에 대해 비쥬얼 정보를 기반으로 최종 이벤트 구간을 검출하여 비디오 요약 정보를 생성할 수 있다.

Claims (20)

  1. 멀티 모달 기반의 고속 비디오 요약 생성 방법에 있어서,
    비디오 데이터에서 오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 단계;
    상기 검출된 이벤트 후보 구간에서 샷 변환을 검출하는 단계;
    상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼(visual) 정보를 기반으로 최종 이벤트 구간을 검출하는 단계; 및
    상기 추출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성하는 단계
    를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  2. 제1항에 있어서,
    오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 상기 단계는,
    상기 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하는 단계; 및
    상기 오디오 이벤트 구간으로 검출된 세그먼트를 중심으로 일정 구간을 상기 이벤트 후보 구간으로 검출하는 단계
    를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  3. 제2항에 있어서,
    상기 이벤트 후보 구간은 상기 세그먼트를 중심으로 전방 또는 후방의 일정 구간인 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  4. 제2항에 있어서,
    상기 이벤트 후보 구간은 상기 검출된 세그먼트를 중심으로 전후방 일정 시간만큼의 구간인 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  5. 제2항에 있어서,
    상기 비디오 데이터가 스포츠 경기와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 환호성, 아나운서의 고조도 또는 박수 소리에 따라 결정되는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  6. 제2항에 있어서,
    상기 비디오 데이터가 뉴스와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 묵음 구간에 따라 결정되는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  7. 제2항에 있어서,
    상기 비디오 데이터가 드라마 또는 영화와 연관된 데이터인 경우, 상기 오디오 이벤트 구간은 음악 구간 혹은 폭발음에 따라 결정되는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  8. 제1항에 있어서,
    최종 이벤트 구간을 검출하는 상기 단계는,
    상기 이벤트 후보 구간 내에서 이벤트 기준 샷을 검출하는 단계:
    상기 검출된 이벤트 기준 샷을 중심으로 인접한 이벤트 구성 샷을 검출하는 단계; 및
    상기 검출된 이벤트 구성 샷을 이용하여 샷 단위로 최종 이벤트 구간을 확정하는 단계
    를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  9. 제8항에 있어서,
    상기 비디오 데이터가 축구 경기와 연관된 데이터인 경우, 상기 이벤트 기준 샷은 패널티 영역 샷인 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  10. 제9항에 있어서,
    상기 이벤트 기준 샷을 검출하는 단계는,
    N*N 블록으로 프레임을 나누고, 각 블록마다 픽셀값에 대한 임계값을 결정하는 단계;
    상기 각 블록내 픽셀값이 상기 임계값보다 크면 '255'로 할당하고, 상기 픽셀값이 상기 임계값보다 작으면 '0'으로 할당하는 단계;
    상기 할당된 값이 '255'인 픽셀의 위치를 소정 식에 대입하고, 가장 많은 픽셀 수를 갖는 위치를 계산하는 단계;
    상기 가장 많은 픽셀수가 임계값보다 큰 경우, 상기 계산된 위치가 패널티 라인의 기울기와 거리에 해당하는지 여부를 판단하는 단계; 및
    상기 계산된 위치가 상기 패널티 라인의 기울기와 거리에 해당하는 경우, 상기 이벤트 기준 샷을 상기 패널티 영역 샷으로 검출하는 단계
    를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  11. 제9항에 있어서,
    상기 검출된 이벤트 기준 샷을 중심으로 인접한 이벤트 구성 샷을 검출하는 상기 단계는,
    상기 패널티 영상 샷의 후방으로 클로즈업(Close up) 샷이 소정 개수 이상 존재하는지 여부를 판단하는 단계; 및
    상기 소정 개수 이상의 클로즈업 샷이 존재하는 경우, 상기 클로즈업 샷을 상기 이벤트 구성 샷으로 설정하는 단계
    를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  12. 제11항에 있어서,
    상기 비디오 데이터가 축구 경기와 연관된 데이터인 경우,
    최종 이벤트 구간을 확정하는 상기 단계는,
    상기 패널티 영역 샷 및 상기 클로즈업 샷으로 상기 최종 이벤트 구간을 확정하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  13. 제8항에 있어서,
    상기 비디오 데이터가 뉴스와 연관된 데이터인 경우,
    상기 이벤트 기준 샷은 앵커 샷인 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  14. 제13항에 있어서,
    이벤트 기준 샷을 검출하는 상기 단계는,
    앵커 모델 후보 샷을 추출하는 단계;
    상기 추출된 앵커 모델 후보 샷으로부터 앵커 모델을 생성하는 단계; 및
    상기 생성된 앵커 모델과 키 프레임을 비교하여 상기 이벤트 기준 샷을 상기 앵커 샷으로 설정하는 단계
    를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  15. 제8항에 있어서,
    상기 비디오 데이터가 영화와 연관된 데이터인 경우,
    상기 이벤트 기준 샷은 정면 클로즈업 샷이고,
    상기 이벤트 구성 샷은 액션 샷인 것을 특징으로 하는 고속 비디오 요약 생 성 방법.
  16. 제15항에 있어서,
    이벤트 기준 샷을 검출하는 상기 단계는,
    상기 비디오 데이터의 샷에서 얼굴을 검출하는 단계;
    상기 검출된 얼굴에서 눈 사이의 거리를 측정하는 단계; 및
    상기 측정된 눈 사이의 거리가 임계값보다 큰 경우 상기 이벤트 기준 샷을 정면 클로즈업 샷으로 설정하는 단계
    를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 방법.
  17. 제1항 내지 제16항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
  18. 멀티 모달 기반의 고속 비디오 요약 생성 장치에 있어서,
    비디오 데이터에서 오디오 정보를 기반으로 이벤트 후보 구간을 검출하는 이벤트 후보 구간 검출부;
    상기 검출된 이벤트 후보 구간에서 샷 변환을 검출하는 샷 변환 검출부;
    상기 검출된 이벤트 후보 구간에서 상기 검출된 샷 변환 정보 및 비쥬얼(visual) 정보를 기반으로 최종 이벤트 구간을 검출하는 최종 이벤트 구간 검출부; 및
    상기 추출된 최종 이벤트 구간을 조합하여 비디오 요약 정보를 생성하는 비디오 요약 정보 생성부
    를 포함하는 것을 특징으로 하는 고속 비디오 요약 생성 장치.
  19. 제18항에 있어서,
    상기 이벤트 후보 구간 검출부는,
    상기 오디오 정보를 기반으로 오디오 이벤트 구간을 검출하고, 상기 오디오 이벤트 구간으로 검출된 세그먼트를 중심으로 일정 구간을 상기 이벤트 후보 구간으로 검출하는 것을 특징으로 하는 고속 비디오 요약 생성 장치.
  20. 제19항에 있어서,
    상기 이벤트 후보 구간은 상기 세그먼트를 중심으로 전방 또는 후방의 일정 구간인 것을 특징으로 하는 고속 비디오 요약 생성 장치.
KR1020050109309A 2005-11-15 2005-11-15 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치 KR100650407B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020050109309A KR100650407B1 (ko) 2005-11-15 2005-11-15 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치
JP2006221615A JP4532449B2 (ja) 2005-11-15 2006-08-15 マルチモーダル基盤のビデオ要約生成方法およびその装置
US11/520,741 US9251853B2 (en) 2005-11-15 2006-09-14 Method, medium, and system generating video abstract information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050109309A KR100650407B1 (ko) 2005-11-15 2005-11-15 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR100650407B1 true KR100650407B1 (ko) 2006-11-29

Family

ID=37713760

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050109309A KR100650407B1 (ko) 2005-11-15 2005-11-15 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치

Country Status (3)

Country Link
US (1) US9251853B2 (ko)
JP (1) JP4532449B2 (ko)
KR (1) KR100650407B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190137359A (ko) * 2018-06-01 2019-12-11 네이버 주식회사 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
US8797178B2 (en) * 2008-03-10 2014-08-05 Microsoft Corporation Efficient stream sharing for multi-user sensor data collection
JP5245919B2 (ja) * 2009-03-04 2013-07-24 富士通株式会社 情報処理装置およびプログラム
CN102289490B (zh) * 2011-08-11 2013-03-06 浙江宇视科技有限公司 视频摘要生成方法及设备
US9667937B2 (en) * 2013-03-14 2017-05-30 Centurylink Intellectual Property Llc Auto-summarizing video content system and method
CN104182959B (zh) * 2013-05-22 2017-10-27 浙江大华技术股份有限公司 目标搜索方法及装置
CN104123396B (zh) * 2014-08-15 2017-07-07 三星电子(中国)研发中心 一种基于云电视的足球视频摘要生成方法及装置
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
CN108307250B (zh) * 2018-01-23 2020-10-30 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
US11373404B2 (en) 2018-05-18 2022-06-28 Stats Llc Machine learning for recognizing and interpreting embedded information card content
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
CN108810657B (zh) 2018-06-15 2020-11-06 网宿科技股份有限公司 一种设置视频封面的方法和系统
CN110489593B (zh) * 2019-08-20 2023-04-28 腾讯科技(深圳)有限公司 视频的话题处理方法、装置、电子设备及存储介质
CN112069361A (zh) * 2020-08-27 2020-12-11 新华智云科技有限公司 一种基于多模态融合的视频描述文本生成方法
CN113177460B (zh) * 2021-04-25 2023-07-07 台州智必安科技有限责任公司 基于卷积神经网络的双分支Anchor Free人脸检测方法及系统
EP4099326A1 (en) * 2021-06-03 2022-12-07 Lemon Inc. Video remixing method

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0879674A (ja) * 1994-09-06 1996-03-22 Hitachi Ltd 動画像検索方式
JPH09198797A (ja) * 1996-01-17 1997-07-31 Sony Corp 情報信号処理装置及び情報信号処理方法
JPH1032776A (ja) * 1996-07-18 1998-02-03 Matsushita Electric Ind Co Ltd 映像表示方法及び記録再生装置
JP3124239B2 (ja) * 1996-11-13 2001-01-15 沖電気工業株式会社 映像情報検出装置
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
US20050060641A1 (en) * 1999-09-16 2005-03-17 Sezan Muhammed Ibrahim Audiovisual information management system with selective updating
FR2807902B1 (fr) * 2000-04-17 2002-10-25 Thomson Multimedia Sa Procede de detection de changement de plan dans une succession d'images video
JP2002044572A (ja) * 2000-07-21 2002-02-08 Sony Corp 情報信号処理装置及び情報信号処理方法および情報信号記録装置
US8020183B2 (en) * 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
JP3838483B2 (ja) * 2000-12-27 2006-10-25 Kddi株式会社 オーディオ概要情報、オーディオビデオ概要情報の抽出装置、再生装置、および記録媒体
KR100411340B1 (ko) * 2001-03-09 2003-12-18 엘지전자 주식회사 뉴스 비디오 콘텐트의 뉴스 기사 기반 요약 및 브라우징시스템
KR100438269B1 (ko) * 2001-03-23 2004-07-02 엘지전자 주식회사 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
JP4546682B2 (ja) * 2001-06-26 2010-09-15 パイオニア株式会社 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム
JP4615166B2 (ja) * 2001-07-17 2011-01-19 パイオニア株式会社 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム
US7657836B2 (en) * 2002-07-25 2010-02-02 Sharp Laboratories Of America, Inc. Summarization of soccer video content
AU2003265318A1 (en) * 2002-08-02 2004-02-23 University Of Rochester Automatic soccer video analysis and summarization
JP4109065B2 (ja) * 2002-09-27 2008-06-25 クラリオン株式会社 記録再生装置、記録装置、それらの制御方法、制御プログラム及び記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190137359A (ko) * 2018-06-01 2019-12-11 네이버 주식회사 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버
KR102080315B1 (ko) * 2018-06-01 2020-02-24 네이버 주식회사 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버

Also Published As

Publication number Publication date
JP4532449B2 (ja) 2010-08-25
JP2007143114A (ja) 2007-06-07
US9251853B2 (en) 2016-02-02
US20070109446A1 (en) 2007-05-17

Similar Documents

Publication Publication Date Title
KR100650407B1 (ko) 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치
KR100785076B1 (ko) 스포츠 동영상에서의 실시간 이벤트 검출 방법 및 그 장치
CN102685398B (zh) 一种新闻视频场景生成方法
US9961403B2 (en) Visual summarization of video for quick understanding by determining emotion objects for semantic segments of video
RU2693906C2 (ru) Основанный на правилах анализ важности видео
JP5420199B2 (ja) 映像解析装置、映像解析方法、ダイジェスト自動作成システム及びハイライト自動抽出システム
US7555149B2 (en) Method and system for segmenting videos using face detection
ES2556601T3 (es) Sistemas y métodos para la producción autónoma de vídeos a partir de múltiples datos detectados
CN101563935B (zh) 将二维视频转换为三维视频的方法和系统
Wang et al. Altfreezing for more general video face forgery detection
KR100717402B1 (ko) 멀티미디어 데이터의 장르를 판단하는 장치 및 방법
Sowmya et al. A survey on video forgery detection
CN110692251B (zh) 组合数字视频内容的方法及系统
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
KR102573933B1 (ko) 기계 학습 기반의 실감 미디어 저작 방법 및 장치
Wang et al. Affection arousal based highlight extraction for soccer video
KR20170098232A (ko) 오브젝트 검출에 기초하여 외삽된 이미지를 생성하는 방법 및 장치
Zhang et al. Key frame extraction method for lecture videos based on spatio-temporal subtitles
US11636676B2 (en) Method and apparatus for extracting color scheme from video
JP2013195725A (ja) 画像表示システム
KR101323369B1 (ko) 영상 프레임 군집화 장치 및 방법
JP2016119552A (ja) 映像コンテンツ処理装置、映像コンテンツ処理方法及びプログラム
KR101003504B1 (ko) 유해 멀티미디어 판별시스템 및 그 판별방법
KR102179590B1 (ko) 동영상 내 등장인물 갈등정보 추출 장치
Satriyanto et al. Dynamic background video forgery detection using Gaussian mixture model

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121030

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131030

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141030

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151029

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20161028

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20171030

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee