KR20060116335A - 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체 - Google Patents

이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체 Download PDF

Info

Publication number
KR20060116335A
KR20060116335A KR1020050038491A KR20050038491A KR20060116335A KR 20060116335 A KR20060116335 A KR 20060116335A KR 1020050038491 A KR1020050038491 A KR 1020050038491A KR 20050038491 A KR20050038491 A KR 20050038491A KR 20060116335 A KR20060116335 A KR 20060116335A
Authority
KR
South Korea
Prior art keywords
visual
component
event
video
merging
Prior art date
Application number
KR1020050038491A
Other languages
English (en)
Inventor
황두선
엄기완
문영수
김지연
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050038491A priority Critical patent/KR20060116335A/ko
Priority to US11/416,082 priority patent/US20060251385A1/en
Priority to EP06252391A priority patent/EP1722371A1/en
Priority to JP2006130588A priority patent/JP2006319980A/ja
Publication of KR20060116335A publication Critical patent/KR20060116335A/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/22Means responsive to presence or absence of recorded information signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체가 개시된다. 이 장치는, 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 출력하는 시각적 요약부 및 동영상의 청각적 성분으로부터 검출한 청각적 이벤트의 성분을 기준으로서, 세그먼트를 병합하거나 분할하여 동영상을 요약한 결과로서 출력하는 청각적 요약부를 구비하고, 시각적 이벤트란 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 청각적 이벤트란 청각적 성분을 구분짖는 소리의 종류를 의미하는 것을 특징으로 한다. 그러므로, 내용에 기반하면서 샷들을 정확하게 병합하거나 분할할 수 있고, 장르별로 특화되어 동영상을 요약할 수 있고, 동영상을 고속으로 요약할 수 있도록 하는 효과를 갖는다.

Description

이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체{Apparatus and method for summaring moving-picture using events, and compter-readable storage storing compter program controlling the apparatus}
도 1은 본 발명에 의한 이벤트를 이용한 동영상 요약 장치의 실시예의 블럭도이다.
도 2는 본 발명에 의한 이벤트를 이용한 동영상 요약 방법을 설명하기 위한 플로우차트이다.
도 3은 도 1에 도시된 시각적 요약부의 본 발명에 의한 실시예의 블럭도이다.
도 4는 도 2에 도시된 제40 단계의 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.
도 5 (a) 및 (b)는 도 3에 도시된 시각적 이벤트 검출부의 이해를 돕기 위한 그래프들이다.
도 6은 도 3에 도시된 시각적 샷 병합/분할부의 본 발명에 의한 실시예의 블럭도이다.
도 7 (a)~ (f)들은 도 3에 도시된 시각적 샷 병합/분할부의 이해를 돕기 위 한 도면들이다.
도 8 (a) ~ (c)은 도 6에 도시된 시각적 샷 병합/분할부의 동작을 설명하기 위한 다른 도면들이다.
도 9는 도 1에 도시된 청각적 요약부의 본 발명에 의한 실시예의 블럭도이다.
도 10은 도 2에 도시된 제42 단계의 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.
도 11은 도 9에 도시된 오디오 특징값 생성부의 본 발명에 의한 실시예의 블럭도이다.
도 12 (a) ~ (c)들은 도 9에 도시된 재 병합/분할부에서 세그먼트들이 다시 병합되는 모습을 나타내는 도면들이다.
도 13 (a) ~ (c)들은 도 9에 도시된 재 병합/분할부에서 세그먼트가 다시 분할되는 모습을 나타내는 도면들이다.
도 14는 본 발명에 의한 동영상 요약 장치의 다른 실시예의 블럭도이다.
도 15는 본 발명에 의한 동영상 요약 장치의 또 다른 실시예의 블럭도이다.
도 16 ~ 도 18은 본 발명에 의한 동영상 요약 장치 및 방법의 성능을 보여주는 도면들이다.
미국 특허 번호 US6,072,542, US6,272,250, US6,493,042, US5,805,733, US6,697,523, US6,724,933, US2003/0131362
본 발명은 오디오 및/또는 비디오 저장 매체, 멀티미디어 개인용 컴퓨터, 미디어 서버(media server), 디지탈 다용도 디스크(DVD:Digital Versatile Disk) 레코더(Recorder), 디지탈 텔레비젼(digital television) 등과 같이 동영상을 처리하거나 이용하는 기기에 관한 것으로서, 특히, 이벤트를 이용하여 동영상을 요약하는 장치 및 방법과 그 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.
데이타를 저장하는 저장 장치의 용량이 테라 바이트(tera byte)급으로 대용량화되고, 데이타의 압축 기술이 향상되고, 디지탈 기기의 종류가 다양해지고, 방송이 다채널화되며, 개인적인 컨텐츠(contents)의 생성이 급증하는 등, 멀티미디어 컨텐츠의 생성이 만연하고 있다. 그러나, 사용자는 이러한 다양하고 방대한 멀티미디어 컨텐츠들중에서 원하는 컨텐츠를 찾기 어려울 뿐만 아니라 원하는 컨텐츠를 찾아 볼 시간도 없다. 따라서, 사용자는 원하는 컨텐츠를 추려서 보여주기를 원한다. 즉, 사용자는 보고 싶은 컨텐츠를 어디서나 보고, 컨텐츠의 요약이나 컨텐츠의 하이라이트 부분을 통해 중요한 것만을 보고, 보고 싶은 컨텐츠나 장면이 인덱스로 작성되고, 자신의 기호나 기분에 맞추어서 컨텐츠나 장면이 제시되기를 바라는 욕구를 갖는다.
이러한 사용자의 욕구를 충족시키기 위해, 종래의 다양한 동영상 요약 방법 들이 존재한다. 이러한 동영상 요약 방법들중에서, 샷 단위로 동영상을 분할하여 요약하는 종래의 방법이 미국 특허 번호 US6,072,542, US6,272,250 및 US6,493,042에 개시되어 있다. 여기에 개시된 종래의 동영상 요약 방법은 동영상을 너무 과다한 세그먼트(segment)들로 분할하므로, 동영상을 요약한 결과를 사용자에게 제대로 전달할 수 없는 문제점을 갖는다.
단일 정보의 유사성을 이용하여 동영상을 요약하는 종래의 방법이 미국 특허 번호 US5,805,733, US6,697,523 및 US6,724,933에 개시되어 있다. 여기에, 개시된 종래의 방법은 동영상의 내용에 기반하여 세그먼트를 분할하는 대신에 컬러의 유사성에 기반하여 동영상을 요약한다. 그러므로, 이러한 종래의 방법은 동영상을 내용에 충실하게 제대로 요약할 수 없는 문제점을 갖는다.
멀티 모달에 기반하여 동영상을 압축하는 종래의 방법이 미국 특허 번호 US2003/0131362에 개시되어 있다. 여기에 개시된 종래의 방법은 동영상을 매우 느리게 요약하는 문제점을 갖는다.
본 발명이 이루고자 하는 기술적 과제는, 시각적 및 청각적 이벤트를 이용하여 동영상을 내용에 기반하면서 정확하게 고속으로 요약할 수 있는 이벤트를 이용한 동영상 요약 장치를 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 시각적 및 청각적 이벤트를 이용하여 동영상을 내용에 기반하면서 정확하게 고속으로 요약할 수 있는 이벤트를 이용한 동영상 요약 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 또 다른 기술적 과제는, 상기 이벤트를 이용한 동영상 요약 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체를 제공하는 데 있다.
상기 과제를 이루기 위한 본 발명에 의한 이벤트를 이용한 동영상 요약 장치는, 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 출력하는 시각적 요약부 및 상기 동영상의 청각적 성분으로부터 검출한 청각적 이벤트의 성분을 기준으로서, 상기 세그먼트를 병합하거나 분할하여 상기 동영상을 요약한 결과로서 출력하는 청각적 요약부로 구성되고, 상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 청각적 이벤트란 상기 청각적 성분을 구분짖는 소리의 종류를 의미하는 것이 바람직하다.
상기 다른 과제를 이루기 위한 본 발명에 의한 이벤트를 이용한 동영상 요약 방법은, 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 결정하는 단계 및 상기 동영상의 청각적 성분으로부터 검출한 청각적 이벤트의 성분을 기준으로서, 상기 세그먼트를 병합하거나 분할하여 상기 동영상을 요약한 결과를 구하는 단계로 이루어지고, 상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 청각적 이벤트란 상기 청각적 성분을 구분짖는 소리의 종류를 의미하는 것이 바람직하다.
상기 또 다른 과제를 이루기 위해, 이벤트를 이용한 동영상 요약 방법을 수행하는 동영상 요약 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 본 발명에 의한 기록 매체에서, 상기 동영상 요약 방법은 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 결정하는 단계 및 상기 동영상의 청각적 성분으로부터 검출한 청각적 이벤트의 성분을 기준으로서, 상기 세그먼트를 병합하거나 분할하여 상기 동영상을 요약한 결과를 구하는 단계로 이루어지고, 상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 청각적 이벤트란 상기 청각적 성분을 구분짖는 소리의 종류를 의미하는 것이 바람직하다.
이하, 본 발명에 의한 이벤트를 이용한 동영상 요약 장치 및 실시예 각각의 구성 및 동작과 그 장치에서 수행되는 동영상 요약 방법을 첨부한 도면들을 참조하여 다음과 같이 설명한다.
도 1은 본 발명에 의한 이벤트를 이용한 동영상 요약 장치의 실시예의 블럭도로서, 시각적 요약부(10), 청각적 요약부(12), 메타 데이타(metadata) 생성부(14), 저장부(16), 요약 버퍼(18) 및 디스플레이부(20)로 구성된다.
본 발명의 일 실시예에 의하면, 도 1에 도시된 동영상 요약 장치는 시각적 요약부(10) 및 청각적 요약부(12)만으로 구현될 수 있다.
도 2는 본 발명에 의한 이벤트를 이용한 동영상 요약 방법을 설명하기 위한 플로우차트로서, 샷(shot)들을 분할하거나 병합하여 세그먼트(segment)를 구하는 단계(제40 단계) 및 세그먼트를 병합하거나 분할하여 동영상을 요약한 결과를 구하는 단계(제42 단계)로 이루어진다.
도 2에 도시된 제40 및 제42 단계들은 도 1에 도시된 시각적 요약부(10) 및 청각적 요약부(12)에서 각각 수행될 수 있다.
도 1에 도시된 시각적 요약부(10)는 입력단자 IN1을 통해 동영상의 시각적(visual) 성분을 입력하고, 입력한 동영상의 시각적 성분으로부터 시각적 이벤트(event)의 성분을 검출하며, 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 출력한다(제40 단계). 여기서, 동영상의 시각적 성분이란, 동영상에 포함되는 샷들의 시간 정보, 샷들의 컬러 정보 및 페이드(fade) 프레임의 시간 정보 등을 의미한다. 시각적 이벤트란, 동영상에서 내용이 전환되는 부분에 의도적으로 삽입되는 그래픽 효과를 의미한다. 따라서, 시각적 이벤트가 발생하면 내용의 전환이 발생한다고 볼 수 있다. 예를 들어, 시각적 이벤트로서, 페이드(fade) 효과, 디졸브(dissolve) 효과 또는 와이프(wipe) 효과 등이 있다.
도 3은 도 1에 도시된 시각적 요약부(10)의 본 발명에 의한 실시예(10A)의 블럭도로서, 시각적 이벤트 검출부(60), 장면 전환 검출부(62) 및 시각적 샷 병합/분할부(64)로 구성된다.
도 4는 도 2에 도시된 제40 단계의 본 발명에 의한 실시예(40A)를 설명하기 위한 플로우차트로서, 시각적 이벤트의 성분을 검출하는 단계(제80 단계), 샷의 시간 정보와 컬러 정보를 생성하는 단계(제82 단계) 및 샷들을 병합하거나 분할하는 단계(제84 단계)로 이루어진다.
도 3에 도시된 시각적 이벤트 검출부(60)는 입력단자 IN3을 통해 동영상의 시각적 성분을 입력하고, 입력한 동영상의 시각적 성분으로부터 시각적 이벤트의 성분을 검출하며, 검출된 시각적 이벤트의 성분을 시각적 샷 병합/분할부(64)로 출력한다(제80 단계).
도 5 (a) 및 (b)는 도 3에 도시된 시각적 이벤트 검출부(60)의 이해를 돕기 위한 그래프들로서, 각 그래프에서 횡축은 밝기 레벨을 나타내고, 종축은 빈도를 각각 나타내며, N'은 밝기 레벨의 가장 큰 값을 나타낸다.
본 발명의 이해를 돕기 위해, 시각적 이벤트가 페이드 효과라고 가정한다. 이 때, 페이드 효과의 경우, 페이드 인(fade-in)되는 프레임과 페이드 아웃(fade-out)되는 프레임의 사에에 존재하는 프레임들의 중심에는 단일색의 프레임이 존재한다. 따라서, 시각적 이벤트 검출부(60)는 동영상의 시각적 성분의 컬러 히스토그램 특징을 이용하여 페이드 효과의 중심에 위치한 단일 색의 프레임을 검출하고, 검출한 단일 색의 프레임을 시각적 이벤트의 성분으로서 출력할 수 있다. 예를 들어, 단일 색의 프레임은 도 5 (a)에 도시된 바와 같이 블랙 프레임(black frame)이 될 수도 있고, 도 5 (b)에 도시된 바와 같이 화이트 프레임(white frame)이 될 수도 있다.
제80 단계후에, 장면 전환 검출부(62)는 입력단자 IN3을 통해 동영상의 시각적 성분을 입력하고, 입력한 시각적 성분에서 장면이 전환되는 부분을 검출하여 출력단자 OUT4를 통해 청각적 요약부(12)로 출력하며, 또한 검출된 결과를 이용하여 동일 장면 구간의 시간 정보와 컬러 정보를 생성하며, 생성된 동일 장면 구간의 시간 정보와 컬러 정보를 시각적 샷 병합/분할부(64)로 출력한다(제82 단계). 여기서, 동일 장면 구간이란, 장면이 전환되는 부분들 사이에 포함되는 프레임들 즉, 장면이 전환되는 어느 시점에서의 프레임부터 장면이 다시 전화될 때의 프레임까지의 다수개의 프레임들로 이루어지며, '샷'이라고도 한다. 이 때, 장면 전환 검출부(62)는 각 샷으로부터 단수 또는 복수개의 대표 영상 프레임을 선택하고, 선택된 프레임의 시간 정보와 컬러 정보를 출력할 수도 있다. 장면 전환 검출부(62)에서 수행되는 동작 즉, 동영상의 시각적 성분으로부터 장면이 전환되는 부분을 검출하는 방법은, 예를 들면, 미국 특허 번호 US5,767,922, US6,137,544 및 US6,393,054에 개시되어 있다.
본 발명에 의하면, 도 4에 도시된 바와 달리, 제82 단계가 제80 단계보다 먼저 수행될 수도 있고, 제80 및 제82 단계들이 동시에 수행될 수도 있다.
제82 단계후에, 시각적 샷 병합/분할부(64)는 장면 전환 검출부(62)로부터 입력한 샷들의 컬러 정보들을 이용하여, 그 샷들의 유사성을 분석하고, 분석한 유사성과 시각적 이벤트 검출부(60)로부터 입력한 시각적 이벤트 성분에 의해 그 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 출력단자 OUT3을 통해 출력한다(제84 단계).
도 6은 도 3에 도시된 시각적 샷 병합/분할부(64)의 본 발명에 의한 실시예(64A)의 블럭도로서, 버퍼(100), 유사성 산출부(102), 병합부(104) 및 분할부(106)로 구성된다.
버퍼(100)는 장면 전환 검출부(62)로부터 입력단자 IN4를 통해 입력한 샷들의 컬러 정보들을 저장 즉, 버퍼링한다.
유사성 산출부(102)는 버퍼(100)에 저장된 컬러 정보들중 탐색 윈도우(search window)에 속하는 제1 소정수의 컬러 정보들을 독출하고, 독출한 컬러 정보들을 이용하여 샷들의 컬러 유사성을 산출하고, 산출된 컬러의 유사성을 병합부(104)로 출력한다. 여기서, 탐색 윈도우의 크기는 제1 소정수로서, EPG(Electronic Program Guide) 정보에 따라 달리 결정될 수 있다. 본 발명에 의하면, 유사성 산출부(102)는 다음 수학식 1과 같이 컬러 유사성을 산출할 수 있다.
Figure 112005024217892-PAT00001
여기서, Sim(H1, H2)는 장면 전환 검출부(62)로부터 입력한 유사성을 비교할 두 샷들(H1 및 H2)의 컬러 유사성을 나타내고, H1(n) 및 H2(n)는 두 샷들의 컬러 히스토그램(color histogram)들을 각각 나타내고, N은 히스토그램의 레벨을 나타내고, min(x,y)는 x와 y중 최소값을 나타내는 기존의 히스토그램 인터섹션 방법을 이용한다.
병합부(104)는 유사성 산출부(102)에서 산출된 컬러 유사성과 임계값을 비교하고, 비교된 결과에 응답하여 비교된 두 샷들을 병합한다.
이 때, 시각적 샷 병합/분할부(64)는 분할부(106)를 더 마련할 수 있다. 분 할부(106)는 입력단자 IN5를 통해 시각적 이벤트 성분이 입력될 경우, 즉, 병합부(104)에서 병합된 결과가 시각적 이벤트 성분을 가질 경우, 병합부(104)에서 병합된 결과를 시각적 이벤트 검출부(60)로부터 입력한 시각적 이벤트 성분을 기준으로 분할하며, 분할된 결과를 세그먼트로서 출력단자 OUT5를 통해 출력한다.
본 발명의 일 실시예에 의하면, 도 6에 도시된 바와 같이, 병합부(104)와 분할부(106)가 별도로 마련된다. 이 경우, 병합 동작이 먼저 수행된 후, 분할동작이 수행된다.
본 발명의 다른 실시예에 의하면, 시각적 샷 병합/분할부(64)는 도 6에 도시된 바와 같이 병합부(104)와 분할부(106)를 별도로 마련하는 대신에, 병합부(104)와 분할부(106)가 통합된 하나의 병합/분할부(108)를 마련할 수도 있다. 이 때, 병합/분할부(108)는 병합할 샷들과 분할할 샷들을 최종적으로 결정한 후에, 병합할 샷들을 병합한다.
도 7 (a)~ (f)들은 도 3에 도시된 시각적 샷 병합/분할부(64)의 이해를 돕기 위한 도면들로서, 도 7 (a) 및 (d)들 각각은 일련의 샷들을 화살표 방향으로 시간이 경과되는 순서에서 나타내고, 도 7 (b), (c), (e) 및 (f)들은 도 6에 도시된 버퍼(100)와 세그먼트의 식별 번호가 매칭되는 모습을 나타내는 테이블들이다. 각 테이블에서, 'B#'은 버퍼의 번호 즉, 샷의 번호를 나타내고, SID는 세그먼트의 식별 번호(ID:IDentity)를 나타내고, '?'는 SID가 아직 결정되지 않았음을 나타낸다.
본 발명의 이해를 돕기 위해, 탐색 윈도우의 크기 즉, 제1 소정수를 '8'로서 가정하지만, 본 발명은 이에 국한되지 않는다.
먼저, 도 7 (a)에 도시된 탐색 윈도우(110)에 속하는 샷들(1 ~ 8)을 병합하거나 분할하고자 할 경우, 도 7 (b)에 도시된 바와 같이 첫 번째 버퍼(B#=1)의 SID를 임의의 숫자 편의상 예를 들면 '1'로 도 7 (b)에 도시된 바와 같이 설정한다. 이 때, 유사성 산출부(102)는 첫 번째 버퍼(B#=1)에 저장된 샷의 컬러 정보와 두 번째(B#=2) 부터 여덟번째 버퍼들(B#=8)에 저장된 샷들의 컬러 정보들을 이용하여 두개의 샷들의 유사성을 산출한다.
예를 들어, 유사성 산출부(102)는 두 개의 샷들의 유사성을 버퍼의 끝에서부터 검사할 수 있다. 즉, 유사성 산출부(102)는 첫 번째 버퍼(B#=1)에 저장된 컬러 정보에 해당하는 샷과 여덟 번째 버퍼(B#=8)에 저장된 컬러 정보에 해당하는 샷을 비교한 후, 첫 번째 버퍼(B#=1)에 저장된 컬러 정보에 해당하는 샷과 일곱 번째 버퍼(B#=7)에 저장된 컬러 정보에 해당하는 샷을 비교한 후, 첫 번째 버퍼(B#=1)에 저장된 컬러 정보에 해당하는 샷과 여섯 번째 버퍼(B#=6)에 저장된 컬러 정보에 해당하는 샷을 비교하는 등, 버퍼의 끝에서부터 두 샷들의 유사성을 검사한다고 가정한다.
이러한 가정하에서, 먼저 병합/분할부(108)는 유사성 산출부(102)에서 산출된 첫 번째 버퍼(B#=1)와 여덟번째 버퍼(B#=8)간의 유사성[Sim(H1,H8)]과 임계값을 비교한 결과를 통해 첫 번째 버퍼(B#=1)와 여덟번째 버퍼(B#=8)간의 유사성[Sim(H1,H8)]이 임계값보다 적다고 판단되면, 유사성 산출부(102)에서 산출된 첫 번째 버퍼(B#=1)와 일곱번째 버퍼(B#=7)간의 유사성[Sim(H1,H7)]이 임계값 이상인가를 판단한다. 이 때, 병합/분할부(108)는 첫 번째 버퍼(B#=1)와 일곱번째 버퍼(B#=7)간의 유사성[Sim(H1,H7)]이 임계값 이상인 것으로 판단되면, 첫 번째 버퍼(B#=1) 부터 일곱번째 버퍼(B#=7)까지의 모든 SID를 '1'로 설정한다. 이 때, 첫 번째 버퍼(B#=1)부터 여섯 번째 버퍼(B#=6) ~ 두 번째 버퍼(B#=2)들간의 유사성을 비교되지 않는다. 따라서, 병합/분할부(108)는 첫 번째 샷들로부터 일곱번째 샷들을 모두 병합한다.
그러나, 시각적 이벤트, 예를 들면 페이드 효과를 부여하기 위해 네 번째 샷에 블랙 프레임이 포함되어 있다고 가정한다. 이 경우, 병합/분할부(108)는 입력단자 IN5를 통해 시각적 이벤트 검출부(60)로부터 시각적 이벤트의 성분이 입력될 때, 도 7 (c)에 도시된 바와 같이 첫 번째 버퍼(B#=1)부터 네 번째 버퍼(B#=4)까지의 SID에 '1'을 부여하고, 다섯 번째 버퍼(B#=5)의 SID에 '2'를 부여한다. 이 때, 병합/분할부(108)는 동일한 SID를 갖는 첫 번째 샷들부터 네 번째 샷들을 병합한다.
병합/분할부(108)는 다섯 번째 샷을 기준으로 새로운 탐색 윈도우 즉, 도 7 (d)에 도시된 탐색 윈도우(112)에 속하는 샷들(5 ~ 12)을 병합할 것인가 분할할 것인가를 조사한다. 이 때, 초기상태에서 탐색 윈도우(112)에 해당하는 다섯 번째 샷들부터 열 두번째 샷들의 SID는 도 7 (e)에 도시된 바와 같다.
병합/분할부(108)는 유사성 산출부(102)에서 산출된 다섯 번째 버퍼(B#=5)와 열 두번째 버퍼(B#=12)간의 유사성[Sim(H5,H12)]과 임계값을 비교한 결과를 통해 다섯 번째 버퍼(B#=5)와 열두번째 버퍼(B#=12)간의 유사성[Sim(H5,H12)]이 임계값보다 적다고 판단되면, 유사성 산출부(102)에서 산출된 다섯 번째 버퍼(B#=5)와 열한번째 버퍼(B#=11)간의 유사성[Sim(H5,H11)]이 임계값 이상인가를 판단한다. 이 때, 병합/분할부(108)는 다섯 번째 버퍼(B#=5)와 열한번째 버퍼(B#=11)간의 유사성[Sim(H5,H11)]이 임계값 이상인 것으로 판단되면, 다섯 번째 버퍼(B#=5)부터 열한번째 버퍼(B#=11)까지의 모든 SID를 도 7 (f)에 도시된 바와 같이 '2'로 설정한다. 이 때, 시각적 이벤트가 없을 경우, 병합/분할부(108)는 동일한 SID '2'를 갖는 다섯 번째 샷들부터 열한 번째 샷들을 병합한다.
병합/분할부(108)는 전술한 동작을 버퍼(100)에 저장된 샷들의 컬러 정보들을 이용하여 모든 샷들에 대해 즉, 버퍼(100)에 저장된 모든 B#에 대해 SID가 구해질 때까지 수행한다.
도 8 (a) ~ (c)은 도 6에 도시된 시각적 샷 병합/분할부(64A)의 동작을 설명하기 위한 다른 도면들로서, 횡축은 시간을 나타낸다.
예를 들어, 병합부(104)가 도 8 (a)에 도시된 바와 같은 샷들을 도 8 (b)에 도시된 바와 같이 병합하였다고 가정한다. 이 때, 병합된 샷들로 이루어진 세그먼트(114)에서 중간에 위치하는 샷(119)이 시각적 이벤트 예를 들면 페이드 효과를 부여하기 위한 블랙 프레임 즉, 시각적 이벤트의 성분을 포함할 경우, 분할부(106)는 입력단자 IN5를 통해 입력한 시각적 이벤트의 성분을 갖는 샷(119)을 기준으로 세그먼트(114)를 두 개의 세그먼트들(116 및 118)로 양분한다.
한편, 제40 단계후에, 청각적 요약부(12)는 입력단자 IN2을 통해 동영상의 청각적 성분을 입력하고, 입력한 청각적 성분으로부터 청각적 이벤트의 성분을 검출하며, 검출한 청각적 이벤트의 성분을 기준으로서, 시각적 요약부(10)로부터 입력한 세그먼트를 병합하거나 분할하고, 병합하거나 분할된 결과를 동영상을 요약한 결과로서 출력한다(제42 단계). 여기서, 청각적 이벤트란 청각적 성분을 구분짖는 소리의 종류를 의미하며, 청각적 이벤트의 성분은 예를 들면, 음악(music), 음성(Speech), 주변 소리(Enviroment Sound), 박수, 환호성, 함성 및 묵음(silence)중 적어도 하나가 될 수 있다.
도 9는 도 1에 도시된 청각적 요약부(12)의 본 발명에 의한 실시예(12A)의 블럭도로서, 오디오 특징값 생성부(120), 청각적 이벤트 검출부(122) 및 재 병합/분할부(124)로 구성된다.
도 10은 도 2에 도시된 제42 단계의 본 발명에 의한 실시예(42A)를 설명하기 위한 플로우차트로서, 오디오 특징값을 결정하는 단계(제140 단계), 청각적 이벤트의 성분을 검출하는 단계(제142 단계) 및 세그먼트들을 병합하거나 분할하는 단계(제144 단계)로 이루어진다.
도 9에 도시된 오디오 특징값 생성부(120)는 입력단자 IN6을 통해 동영상의 청각적 성분을 입력하고, 입력한 청각적 성분으로부터 오디오 피쳐(feature)들을 프레임 단위로 추출하고, 제2 소정수의 프레임들에 대한 오디오 피쳐들의 평균 및 표준편차들을 오디오 특징값으로서 청각적 이벤트 검출부(122)로 출력한다(제140 단계). 여기서, 오디오 피쳐란, MFCC(Mel-Frequency Cepstral Coefficient), Spectral Flux, Centroid, Rolloff, ZCR, Energy 또는 Picth 정보가 될 수 있고, 제2 소정수는 2이상의 양의 정수로서 예를 들면 '40'이 될 수 있다.
도 11은 도 9에 도시된 오디오 특징값 생성부(120)의 본 발명에 의한 실시예(120A)의 블럭도로서, 프레임 단위 분할부(150), 피쳐 추출부(152) 및 평균/표준 편자 산출부(154)로 구성된다.
프레임 단위 분할부(150)는 입력단자 IN9를 통해 입력한 동영상의 청각적 성분을 소정 시간 예를 들면 24㎳의 프레임 단위로 분할한다. 이 때, 피쳐 추출부(152)는 분할된 프레임 단위들 각각의 오디오 피쳐들을 추출한다. 평균/표준편차 산출부(154)는 피쳐 추출부(152)에서 제2 소정수의 프레임들에 대해 추출한 제2 소정수의 오디오 피쳐들의 평균과 표준 편차를 산출하고, 산출한 평균과 표준 편차를 오디오 특징값으로서 결정하여 출력단자 OUT7을 통해 출력한다.
동영상의 청각적 성분으로부터 오디오 특징값을 생성하는 종래의 방법들중에서 몇 가지가 "Method and article of manufacture for content-based analysis, storage, retrieval and segmentation of audio information"라는 제목을 갖는 미국 특허 번호 US5,918,223, "Extracting classifying data in music from an audio bitstream"라는 제목을 갖는 미국 특허 번호 US20030040904, "Audio Feature Extraction and Analysis for Scene Segmentation and Classification"라는 제목으로 Journal of VLSI Signal Processing Systems archive Volumn 20의 페이지 61-79쪽들에 1998년도에 실려 'Zhu Liu', 'Yao Wang' 및 'Tsuhan Chen'에 의해 발표된 논문 및 "SVM-based audio classification for instructional video analysis"라는 제목으로 ICASSP2004, 2004에 'Ying Li' 및 'Chitra Dorai'에 의해 발표된 논문 에 개시되어 있다.
제140 단계후에, 청각적 이벤트 검출부(122)는 오디오 특징값 생성부(120)로부터 입력한 오디오 특징값을 이용하여 청각적 이벤트의 성분을 검출하고, 검출된 청각적 이벤트의 성분을 재 병합/분할부(124)로 출력한다(제142 단계).
오디오 특징값으로부터 청각적 이벤트의 성분들을 검출하는 종래의 방법들중 몇 가지로서, GMM(Gaussian Mixture Model), HMM(Hidden Markov Model), NN(Neural Network) 또는 SVM(Support Vector Machine) 등의 다양한 통계적 학습 모델이 사용될 수 있다. 여기서, SVM을 이용하여 청각적 이벤트를 검출하는 종래의 방법이 "SVM-based audio classification for instructional video analysis"라는 제목으로 ICASSP2004, 2004에 'Ying Li' 및 'Chitra Dorai'에 의해 발표된 논문에 개시되어 있다.
제142 단계후에, 재 병합/분할부(124)는 청각적 이벤트 검출부(122)로부터 입력한 청각적 이벤트의 성분을 기준으로서, 입력단자 IN7을 통해 장면 전환 검출부(62)로부터 입력한 장면이 전환되는 부분을 이용하여 입력단자 IN8을 통해 시각적 요약부(10)로부터 입력한 세그먼트를 병합하거나 분할하고, 병합하거나 분할된 결과를 동영상을 요약한 결과로서 출력단자 OUT6을 통해 출력한다(제144 단계).
도 12 (a) ~ (c)들은 도 9에 도시된 재 병합/분할부(124)에서 세그먼트들이 다시 병합되는 모습을 나타내는 도면들로서, 도 12 (a)는 시각적 요약부(10)로부터 입력한 세그먼트들을 나타내는 도면이고, 도 12 (b)는 청각적 성분을 나타내는 도면이고, 도 12 (c)는 병합된 결과를 나타내는 도면이다.
재 병합/분할부(124)는 입력단자 IN8을 통해 도 12 (a)에 도시된 세그먼트들(160, 162, 164, 166 및 168)을 시각적 요약부(10)로부터 입력한다. 이 때, 재 병합/분할부(124)는 청각적 이벤트 검출부(122)로부터 입력한 청각적 이벤트의 성분 예를 들면, 음악 성분이 세그먼트들(164 및 166)의 중간에 위치하여 있으므로, 세그먼트들(164 및 166)은 동일한 내용인 것으로 간주하고, 도 12 (c)에 도시된 바와 같이 병합한다.
도 13 (a) ~ (c)들은 도 9에 도시된 재 병합/분할부(124)에서 세그먼트가 다시 분할되는 모습을 나타내는 도면들로서, 도 13 (a)는 시각적 요약부(10)로부터 입력한 세그먼트들을 나타내는 도면이고, 도 13 (b)는 청각적 성분을 나타내는 도면이고, 도 13 (c)는 분할된 결과를 나타내는 도면이다.
재 병합/분할부(124)는 입력단자 IN8을 통해 도 13 (a)에 도시된 세그먼트들(180, 182, 184, 186 및 188)을 시각적 요약부(10)로부터 입력한다. 이 때, 재 병합/분할부(124)는 청각적 이벤트 검출부(122)로부터 입력한 청각적 이벤트의 성분 예를 들면, 박수, 함성 또는 묵음이 도 13 (b)에 도시된 바와 같이 일정 시간(l) 이상 동안 지속될 경우, 입력단자 IN7을 통해 입력한 장면이 전환되는 부분에 존재하는 프레임인 분할 이벤트 프레임을 이용하여 장면의 전환이 일어나는 시점(tl)에서 세그먼트(182)를 두 개의 세그먼트들(190 및 192)들로 도 13 (c)에 도시된 바와 같이 양분한다.
한편, 본 발명의 다른 실시예에 의하면, 도 1에 도시된 동영상 요약 장치는 메타 데이타 생성부(14) 및 저장부(16)를 더 마련할 수도 있다.
메타 데이타 생성부(14)는 청각적 요약부(12)로부터 동영상을 요약한 결과를 입력하고, 입력한 동영상을 요약한 결과의 메타 데이타 즉, 속성 데이타를 생성하며, 생성된 메타 데이타를 동영상을 요약한 결과와 함께 저장부(16)로 출력한다. 이 때, 저장부(16)는 메타 데이타 생성부(14)에서 생성된 메타 데이타를 요약한 결과와 함께 저장하고, 저장된 결과를 출력단자 OUT2를 통해 출력한다.
본 발명의 또 다른 실시예에 의하면, 도 1에 도시된 동영상 요약 장치는 요약 버퍼(18) 및 디스플레이부(20)를 더 마련할 수도 있다.
요약 버퍼(18)는 시각적 요약부(10)로부터 입력한 세그먼트를 버퍼링하고, 버퍼링된 결과를 디스플레이부(20)로 출력한다. 이를 위해, 시각적 요약부(10)는 새로운 세그먼트가 생성될 때마다 새로운 세그먼트보다 이전에 생성된 세그먼트를 요약 버퍼(18)로 출력한다. 디스플레이부(20)는 요약 버퍼(18)로부터 입력한 버퍼링된 결과 및 입력단자 IN2를 통해 입력한 동영상의 청각적 성분을 함께 디스플레이한다.
본 발명에 의하면, 동영상의 시각적 성분은 텔레비젼 방송 신호에 포함된 시각적 성분과 EPG 정보를 모두 포함할 수 있고, 동영상의 청각적 성분은 텔레비젼 방송 신호에 포함된 청각적 성분과 EPG 정보를 모두 포함할 수 있다.
도 14는 본 발명에 의한 동영상 요약 장치의 다른 실시예의 블럭도로서, EPG 해석부(200), 튜너(tuner)(202), 멀티플렉서(MUX)(204), 비디오 디코더(206), 오디오 디코더(208), 시각적 요약부(210), 요약 버퍼(212), 디스플레이부(214), 스피커 (215), 청각적 요약부(216), 메타 데이타 생성부(218) 및 저장부(220)로 구성된다.
도 14에 도시된 시각적 요약부(210), 청각적 요약부(216), 메타 데이타 생성부(218), 저장부(220), 요약 버퍼(212) 및 디스플레이부(214)는 도 1에 도시된 시각적 요약부(10), 청각적 요약부(12), 메타 데이타 생성부(14), 저장부(16), 요약 버퍼(18) 및 디스플레이부(20)에 각각 해당하므로, 이에 대한 상세한 설명은 생략한다.
도 14를 참조하면, EPG 해석부(200)는 입력단자 IN10을 통해 입력한 EPG 신호로부터 EPG 정보를 추출하여 분석하고, 분석한 결과를 시각적 요약부(210) 및 청각적 요약부(216)로 각각 출력한다. 여기서, EPG 신호는 웹(web)을 통해 별도로 제공될 수도 있고, 텔레비젼 방송 신호에 포함될 수도 있다. 이 경우, 시각적 요약부(210)에 입력되는 동영상의 시각적 성분은 EPG 정보를 포함하고, 청각적 요약부(216)에 입력되는 동영상의 청각적 성분은 EPG 정보를 포함한다. 이 때, 튜너(202)는 입력단자 IN11을 통해 텔레비젼 방송 신호를 입력하여 튜닝하고, 튜닝된 결과를 MUX(204)로 출력한다. MUX(204)는 튜닝된 결과에서 비디오 성분을 비디오 디코더(206)로 출력하고 오디오 성분을 오디오 디코더(208)로 각각 출력한다.
이 때, 비디오 디코더(206)는 MUX(204)로부터 입력한 비디오 성분을 디코딩하고, 디코딩된 결과를 동영상의 시각적 성분으로서 시각적 요약부(210)로 출력한다. 이와 비슷하게, 오디오 디코더(208)는 MUX(204)로부터 입력한 오디오 성분을 디코딩하고, 디코딩된 결과를 동영상의 청각적 성분으로서 청각적 요약부(216) 및 스피커(214)로 출력한다. 이 때, 스피커(215)는 동영상의 청각적 성분을 사운드로 서 제공한다.
도 15는 본 발명에 의한 동영상 요약 장치의 또 다른 실시예의 블럭도로서, EPG 해석부(300), 제1 및 제2 튜너들(302 및 304), 제1 및 제2 MUX들(306 및 308), 제1 및 제2 비디오 디코더들(310 및 312), 제1 및 제2 오디오 디코더들(314 및 316), 시각적 요약부(318), 요약 버퍼(320), 디스플레이부(322), 스피커(323), 청각적 요약부(324), 메타 데이타 생성부(326) 및 저장부(328)로 구성된다.
도 15에 도시된 시각적 요약부(318), 청각적 요약부(324), 메타 데이타 생성부(326), 저장부(328), 요약 버퍼(320) 및 디스플레이부(322)는 도 1에 도시된 시각적 요약부(10), 청각적 요약부(12), 메타 데이타 생성부(14), 저장부(16), 요약 버퍼(18) 및 디스플레이부(20)에 각각 해당하므로, 이에 대한 상세한 설명은 생략한다. 또한, 도 15에 도시된 EPG 해석부(300) 및 스피커(323)는 도 14에 도시된 EPG 해석부(200) 및 스피커(215)와 동일한 기능을 수행하고, 제1 및 제2 튜너들(302 및 304) 각각은 튜너(202)와 동일한 기능을 수행하고, 제1 및 제2 MUX들(306 및 308) 각각은 MUX(204)와 동일한 기능을 수행하고, 제1 및 제2 비디오 디코더들(310 및 312) 각각은 비디오 디코더(206)와 동일한 기능을 수행하고, 제1 및 제2 오디오 디코더들(314 및 316) 각각은 오디오 디코더(208)와 동일한 기능을 수행하므로, 이에 대한 상세한 설명은 생략한다.
도 14에 도시된 동영상 요약 장치와 달리 도 15에 도시된 동영상 요약 장치는 두 개의 텔레비젼 방송 수신 경로들을 마련하고 있다. 이 중 하나의 수신 경로는 제2 튜너(304), 제2 MUX(308), 제2 비디오 디코더(312) 및 오디오 디코더(316) 로 이루어져 있으며, 디스플레이부(322)를 통해 사용자로 하여금 텔레비젼 방송을 시청하도록 한다. 다른 하나의 수신 경로는 제1 튜너(302), 제1 MUX(306), 제1 비디오 디코더(310) 및 오디오 디코더(314)로 이루어져 있으며, 동영상을 요약하여 저장하도록 한다.
도 16 ~ 도 18은 본 발명에 의한 동영상 요약 장치 및 방법의 성능을 보여주는 도면들로서, SegmentID=x(a:b)에서 Segment ID는 전술한 SID를 의미하며, a와 b는 대표 프레임이 상영되는 분(minute)과 초(second)를 각각 의미한다.
도 16에 도시된 바와 같이, Segment ID가 3으로 할당된 샷의 대표 프레임들이 하나의 세그먼트(400)로 요약되고, Segment ID가 4로 할당된 샷의 대표 프레임들이 다른 하나의 세그먼트(402)로 요약되었다. 이와 비슷하게, 도 17에 도시된 바와 같이, Segment ID가 3으로 할당된 샷의 대표 프레임들이 하나의 세그먼트(500)로 요약되고, Segment ID가 4로 할당된 샷의 대표 프레임들이 다른 하나의 세그먼트(502)로 요약되었다. 이와 비슷하게, 도 18에 도시된 바와 같이, Segment ID가 5로 할당된 샷의 대표 프레임들이 하나의 세그먼트(600)로 요약되고, Segment ID가 6로 할당된 샷의 대표 프레임들이 다른 하나의 세그먼트(602)로 요약되었다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 읽을 수 있는 코드/명령들(instructions)/프로그램으로 구현될 수 있고, 매체, 예를 들면 컴퓨터로 읽을 수 있는 기록 매체를 이용하여 상기 코드/명령들/프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는 마그네틱 저장 매체(예를 들어, 롬, 플로피 디스크, 하드디스크, 마그네틱 테이프 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장 매체를 포함한다. 또한, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 코드를 내장하는 매체(들)로서 구현되어, 네트워크를 통해 연결된 다수개의 컴퓨터 시스템들이 분배되어 처리 동작하도록 할 수 있다. 본 발명을 실현하는 기능적인 프로그램들, 코드들 및 코드 세그먼트(segment)들은 본 발명이 속하는 기술 분야의 프로그래머들에 의해 쉽게 추론될 수 있다.
이상에서 설명한 바와 같이, 본 발명에 의한 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체는 시각적 및 청각적 이벤트들을 이용하여 내용에 기반하면서 샷들을 정확하게 병합하거나 분할할 수 있고, EPG 정보에 따라 장르별로 제1 소정수를 서로 달리 설정하므로서 장르별로 특화되어 동영상을 요약할 수 있고, 시각적 이벤트를 이용하여 동영상을 사전에 요약하므로 동영상을 고속으로 요약할 수 있도록 하는 효과를 갖는다.

Claims (24)

  1. 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 출력하는 시각적 요약부; 및
    상기 동영상의 청각적 성분으로부터 검출한 청각적 이벤트의 성분을 기준으로서, 상기 세그먼트를 병합하거나 분할하여 상기 동영상을 요약한 결과로서 출력하는 청각적 요약부를 구비하고,
    상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 청각적 이벤트란 상기 청각적 성분을 구분짖는 소리의 종류를 의미하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  2. 제1 항에 있어서, 상기 시각적 요약부는
    상기 시각적 성분으로부터 상기 시각적 이벤트의 성분을 검출하는 시각적 이벤트 검출부;
    상기 시각적 성분에서 장면이 전환되는 부분을 검출하고, 검출된 결과를 이용하여 동일 장면 구간인 상기 샷의 시간 정보와 컬러 정보를 생성하는 장면 전환 검출부; 및
    상기 장면 전환 검출부로부터 입력한 샷들의 컬러 정보들을 이용하여, 상기 샷들의 유사성을 분석하고, 분석한 유사성과 상기 시각적 이벤트 성분에 의해 상기 샷들을 병합하거나 분할하는 시각적 샷 병합/분할부를 구비하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  3. 제2 항에 있어서, 상기 시각적 이벤트 검출부는
    상기 시각적 성분으로부터 페이드 효과의 중심에 위치한 단일 색의 프레임을 검출하고, 검출한 상기 단일 색의 프레임을 상기 시각적 이벤트의 성분으로서 출력하고,
    상기 시각적 이벤트는 상기 페이드 효과에 해당하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  4. 제2 항에 있어서, 상기 시각적 이벤트는 페이드 효과, 디졸브 효과 또는 와이프 효과인 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  5. 제2 항에 있어서, 상기 시각적 샷 병합/분할부는
    상기 장면 전환 검출부로부터 입력한 샷들의 상기 컬러 정보들을 저장하는 버퍼;
    상기 저장된 컬러 정보들중 탐색 윈도우에 속하는 제1 소정수의 컬러 정보들을 독출하고, 독출한 컬러 정보들을 이용하여 상기 샷들의 컬러 유사성을 산출하는 유사성 산출부; 및
    상기 컬러 유사성과 임계값을 비교하고, 상기 비교된 결과에 응답하여 상기 비교된 두 샷들을 병합하는 병합부를 구비하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  6. 제5 항에 있어서, 상기 시각적 샷 병합/분할부는
    상기 병합된 결과가 상기 시각적 이벤트 성분을 가질 경우, 상기 병합된 결과를 상기 시각적 이벤트 성분을 기준으로 분할하는 분할부를 더 구비하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  7. 제5 항에 있어서, 상기 유사성 산출부는 아래와 같이 상기 컬러 유사성을 산출하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
    Figure 112005024217892-PAT00002
    [여기서, Sim(H1, H2)는 두 샷들의 컬러 유사성을 나타내고, H1(n) 및 H2(n)는 두 샷들의 컬러 히스토그램들을 각각 나타내고, N은 히스토그램의 레벨을 나타내고, min(x,y)는 x와 y중 최소값을 나타낸다.]
  8. 제5 항에 있어서, 상기 탐색 윈도우의 크기인 상기 제1 소정수는 EPG 정보에 따라 달리 결정되는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  9. 제2 항에 있어서, 상기 청각적 요약부는
    상기 청각적 성분으로부터 오디오 피쳐들을 프레임 단위로 추출하고, 제2 소정수의 프레임들에 대한 상기 오디오 피쳐들의 평균 및 표준편차를 오디오 특징값으로서 출력하는 오디오 특징값 생성부;
    상기 오디오 특징값을 이용하여 상기 청각적 이벤트의 성분을 검출하는 청각적 이벤트 검출부; 및
    상기 청각적 이벤트의 성분을 기준으로서, 상기 세그먼트를 병합하거나 분할하고, 그 결과를 상기 동영상을 요약한 결과로서 출력하는 재 병합/분할부를 구비하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  10. 제9 항에 있어서. 상기 오디오 특징값 생성부는
    상기 동영상의 청각적 성분을 소정 시간의 프레임 단위로 분할하는 프레임 단위 분할부;
    상기 분할된 프레임 단위들 각각의 오디오 피쳐들을 추출하는 피쳐 추출부; 및
    상기 피쳐 추출부에서 제2 소정수의 프레임들에 대해 추출한 제2 소정수의 오디오 피쳐들의 평균과 표준 편차를 산출하고, 산출한 평균과 표준 편차를 상기 오디오 특징값으로서 출력하는 평균/표준편차 산출부를 구비하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  11. 제9 항에 있어서, 상기 오디오 피쳐는 Mel-Frequency Cepstral Coefficient(MFCC), Spectral Flux, Centroid, Rolloff, ZCR, Energy 또는 Picth 정보인 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  12. 제9 항에 있어서, 상기 청각적 이벤트의 성분은 음악, 음성, 주변 소리, 박수, 환호성, 함성 및 묵음중 적어도 하나인 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  13. 제12 항에 있어서, 상기 재 병합/분할부는
    상기 음악이 존재하는 이웃하는 다수개의 세그먼트들을 병합하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  14. 제12 항에 있어서, 상기 재 병합/분할부는 상기 박수, 상기 함성 또는 상기 묵음이 존재하는 단일 세그먼트를 분할 이벤트 프레임에 의해 양분하고,
    상기 분할 이벤트 프레임은 상기 장면 전환 검출부에서 검출된 상기 장면이 전환되는 부분에 존재하는 프레임인 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  15. 제1 항에 있어서, 상기 동영상 요약 장치는
    상기 동영상을 요약한 결과의 메타 데이타를 생성하는 메타 데이타 생성부; 및
    상기 생성된 메타 데이타를 상기 요약한 결과와 함께 저장하는 저장부를 더 구비하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  16. 제1 항 또는 제15 항에 있어서, 상기 동영상 요약 장치는
    상기 시각적 요약부로부터 입력한 상기 세그먼트를 버퍼링하는 요약 버퍼; 및
    상기 요약 버퍼로부터 입력한 버퍼링된 결과 및 상기 동영상의 청각적 성분을 함께 디스플레이하는 디스플레이부를 더 구비하고,
    상기 시각적 요약부는 새로운 세그먼트가 생성될 때마다 상기 새로운 세그먼트보다 이전에 생성된 세그먼트를 상기 요약 버퍼로 출력하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  17. 제1 항에 있어서, 상기 동영상의 시각적 성분은 텔레비젼 방송 신호에 포함된 시각적 성분과 EPG 정보를 모두 포함하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  18. 제1 항에 있어서, 상기 동영상의 청각적 성분은 텔레비젼 방송 신호에 포함된 청각적 성분과 EPG 정보를 모두 포함하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
  19. 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 결정하는 단계; 및
    상기 동영상의 청각적 성분으로부터 검출한 청각적 이벤트의 성분을 기준으로서, 상기 세그먼트를 병합하거나 분할하여 상기 동영상을 요약한 결과를 구하는 단계를 구비하고,
    상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 청각적 이벤트란 상기 청각적 성분을 구분짖는 소리의 종류를 의미하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 방법.
  20. 제19 항에 있어서, 상기 세그먼트를 결정하는 단계는
    상기 시각적 성분으로부터 상기 시각적 이벤트의 성분을 검출하는 단계;
    상기 시각적 성분에서 장면이 전환되는 부분을 검출하고, 검출된 결과를 이용하여 동일 장면 구간인 상기 샷의 시간 정보와 컬러 정보를 생성하는 단계; 및
    상기 샷들의 유사성을 상기 샷들의 컬러 정보들로부터 분석하고, 분석한 유사성과 상기 시각적 이벤트 성분에 의해 상기 샷들을 병합하거나 분할하는 단계를 구비하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 방법.
  21. 제20 항에 있어서, 상기 세그먼트를 병합하거나 분할하는 단계는
    상기 청각적 성분으로부터 오디오 피쳐들을 프레임 단위로 추출하고, 제2 소정수의 프레임들에 대한 상기 오디오 피쳐들의 평균 및 표준편차를 오디오 특징값으로서 결정하는 단계;
    상기 오디오 특징값을 이용하여 상기 청각적 이벤트의 성분을 검출하는 단계; 및
    상기 청각적 이벤트의 성분을 기준으로서, 상기 세그먼트를 병합하거나 분할하고, 그 결과를 상기 동영상을 요약한 결과로서 결정하는 단계를 구비하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 방법.
  22. 이벤트를 이용한 동영상 요약 방법을 수행하는 동영상 요약 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 상기 동영상 요약 방법은
    동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 결정하는 단계; 및
    상기 동영상의 청각적 성분으로부터 검출한 청각적 이벤트의 성분을 기준으로서, 상기 세그먼트를 병합하거나 분할하여 상기 동영상을 요약한 결과를 구하는 단계를 구비하고,
    상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 청각적 이벤트란 상기 청각적 성분을 구분짖는 소리의 종류를 의미하는 것을 특징으로 하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체.
  23. 제22 항에 있어서, 상기 세그먼트를 결정하는 단계는
    상기 시각적 성분으로부터 상기 시각적 이벤트의 성분을 검출하는 단계;
    상기 시각적 성분에서 장면이 전환되는 부분을 검출하고, 검출된 결과를 이용하여 동일 장면 구간인 상기 샷의 시간 정보와 컬러 정보를 생성하는 단계; 및
    상기 샷들의 유사성을 상기 샷들의 컬러 정보들로부터 분석하고, 분석한 유사성과 상기 시각적 이벤트 성분에 의해 상기 샷들을 병합하거나 분할하는 단계를 구비하는 것을 특징으로 하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체.
  24. 제23 항에 있어서, 상기 세그먼트를 병합하거나 분할하는 단계는
    상기 청각적 성분으로부터 오디오 피쳐들을 프레임 단위로 추출하고, 제2 소정수의 프레임들에 대한 상기 오디오 피쳐들의 평균 및 표준편차를 오디오 특징값으로서 결정하는 단계;
    상기 오디오 특징값을 이용하여 상기 청각적 이벤트의 성분을 검출하는 단계; 및
    상기 청각적 이벤트의 성분을 기준으로서, 상기 세그먼트를 병합하거나 분할하고, 그 결과를 상기 동영상을 요약한 결과로서 결정하는 단계를 구비하는 것을 특징으로 하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체.
KR1020050038491A 2005-05-09 2005-05-09 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체 KR20060116335A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020050038491A KR20060116335A (ko) 2005-05-09 2005-05-09 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체
US11/416,082 US20060251385A1 (en) 2005-05-09 2006-05-03 Apparatus and method for summarizing moving-picture using events, and computer-readable recording medium storing computer program for controlling the apparatus
EP06252391A EP1722371A1 (en) 2005-05-09 2006-05-05 Apparatus and method for summarizing moving-picture using events, and computer-readable recording medium storing computer program for controlling the apparatus
JP2006130588A JP2006319980A (ja) 2005-05-09 2006-05-09 イベントを利用した動画像要約装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050038491A KR20060116335A (ko) 2005-05-09 2005-05-09 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체

Publications (1)

Publication Number Publication Date
KR20060116335A true KR20060116335A (ko) 2006-11-15

Family

ID=36808850

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050038491A KR20060116335A (ko) 2005-05-09 2005-05-09 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체

Country Status (4)

Country Link
US (1) US20060251385A1 (ko)
EP (1) EP1722371A1 (ko)
JP (1) JP2006319980A (ko)
KR (1) KR20060116335A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013147374A1 (ko) * 2012-03-29 2013-10-03 서울대학교산학협력단 멀티 채널 분석을 이용한 비디오 스트림 분석 방법
KR20200056724A (ko) * 2018-11-15 2020-05-25 에스케이텔레콤 주식회사 미디어 컨텐츠 구간 분석 방법 및 이를 지원하는 서비스 장치
CN112637573A (zh) * 2020-12-23 2021-04-09 深圳市尊正数字视频有限公司 一种多镜头切换的显示方法、系统、智能终端及存储介质
KR102369620B1 (ko) * 2020-09-11 2022-03-07 서울과학기술대학교 산학협력단 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
KR100597398B1 (ko) * 2004-01-15 2006-07-06 삼성전자주식회사 비디오 클립을 검색하는 장치 및 방법
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
US20070255755A1 (en) * 2006-05-01 2007-11-01 Yahoo! Inc. Video search engine using joint categorization of video clips and queries based on multiple modalities
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
DE102007028175A1 (de) 2007-06-20 2009-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Automatisiertes Verfahren zur zeitlichen Segmentierung eines Videos in Szenen unter Berücksichtigung verschiedener Typen von Übergängen zwischen Bildfolgen
JP2011523291A (ja) 2008-06-09 2011-08-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ/ビジュアルデータストリームのサマリを生成するための方法及び装置
KR100995839B1 (ko) * 2008-08-08 2010-11-22 주식회사 아이토비 멀티미디어 디지털 콘텐츠의 축약정보 추출시스템과 축약 정보를 활용한 다중 멀티미디어 콘텐츠 디스플레이 시스템 및 그 방법
EP2408190A1 (en) * 2010-07-12 2012-01-18 Mitsubishi Electric R&D Centre Europe B.V. Detection of semantic video boundaries
US10134440B2 (en) * 2011-05-03 2018-11-20 Kodak Alaris Inc. Video summarization using audio and visual cues
WO2015017706A2 (en) * 2013-07-31 2015-02-05 Kadenze, Inc. Feature extraction and machine learning for evaluation of audio-type, media-rich coursework
US9792553B2 (en) * 2013-07-31 2017-10-17 Kadenze, Inc. Feature extraction and machine learning for evaluation of image- or video-type, media-rich coursework
CN104581396A (zh) * 2014-12-12 2015-04-29 北京百度网讯科技有限公司 一种推广信息的处理方法及装置
CN108307250B (zh) * 2018-01-23 2020-10-30 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
KR102221792B1 (ko) * 2019-08-23 2021-03-02 한국항공대학교산학협력단 동영상 컨텐츠의 스토리 기반의 장면 추출 장치 및 방법
US20220292285A1 (en) * 2021-03-11 2022-09-15 International Business Machines Corporation Adaptive selection of data modalities for efficient video recognition
US12010405B2 (en) * 2021-12-03 2024-06-11 International Business Machines Corporation Generating video summary

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5805733A (en) * 1994-12-12 1998-09-08 Apple Computer, Inc. Method and system for detecting scenes and summarizing video sequences
US5821945A (en) * 1995-02-03 1998-10-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US5767922A (en) * 1996-04-05 1998-06-16 Cornell Research Foundation, Inc. Apparatus and process for detecting scene breaks in a sequence of video frames
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6137544A (en) * 1997-06-02 2000-10-24 Philips Electronics North America Corporation Significant scene detection and frame filtering for a visual indexing system
US6072542A (en) * 1997-11-25 2000-06-06 Fuji Xerox Co., Ltd. Automatic video segmentation using hidden markov model
US6393054B1 (en) * 1998-04-20 2002-05-21 Hewlett-Packard Company System and method for automatically detecting shot boundary and key frame from a compressed video data
US6272250B1 (en) * 1999-01-20 2001-08-07 University Of Washington Color clustering for scene change detection and object tracking in video sequences
EP1067800A4 (en) * 1999-01-29 2005-07-27 Sony Corp METHOD FOR PROCESSING SIGNALS AND DEVICE FOR PROCESSING VIDEO / VOCAL SIGNALS
US6493042B1 (en) * 1999-03-18 2002-12-10 Xerox Corporation Feature based hierarchical video segmentation
JP2002044572A (ja) * 2000-07-21 2002-02-08 Sony Corp 情報信号処理装置及び情報信号処理方法および情報信号記録装置
US6724933B1 (en) * 2000-07-28 2004-04-20 Microsoft Corporation Media segmentation system and related methods
US6697523B1 (en) * 2000-08-09 2004-02-24 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion and color descriptors
US6907570B2 (en) * 2001-03-29 2005-06-14 International Business Machines Corporation Video and multimedia browsing while switching between views
US7295977B2 (en) * 2001-08-27 2007-11-13 Nec Laboratories America, Inc. Extracting classifying data in music from an audio bitstream
US20030131362A1 (en) * 2002-01-09 2003-07-10 Koninklijke Philips Electronics N.V. Method and apparatus for multimodal story segmentation for linking multimedia content
US7027124B2 (en) * 2002-02-28 2006-04-11 Fuji Xerox Co., Ltd. Method for automatically producing music videos

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013147374A1 (ko) * 2012-03-29 2013-10-03 서울대학교산학협력단 멀티 채널 분석을 이용한 비디오 스트림 분석 방법
KR20200056724A (ko) * 2018-11-15 2020-05-25 에스케이텔레콤 주식회사 미디어 컨텐츠 구간 분석 방법 및 이를 지원하는 서비스 장치
KR102369620B1 (ko) * 2020-09-11 2022-03-07 서울과학기술대학교 산학협력단 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법
CN112637573A (zh) * 2020-12-23 2021-04-09 深圳市尊正数字视频有限公司 一种多镜头切换的显示方法、系统、智能终端及存储介质

Also Published As

Publication number Publication date
US20060251385A1 (en) 2006-11-09
EP1722371A1 (en) 2006-11-15
JP2006319980A (ja) 2006-11-24

Similar Documents

Publication Publication Date Title
KR20060116335A (ko) 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체
KR100707189B1 (ko) 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체
KR101994592B1 (ko) 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
Huang et al. Automated generation of news content hierarchy by integrating audio, video, and text information
US9961403B2 (en) Visual summarization of video for quick understanding by determining emotion objects for semantic segments of video
Sundaram et al. A utility framework for the automatic generation of audio-visual skims
US7796860B2 (en) Method and system for playing back videos at speeds adapted to content
US5664227A (en) System and method for skimming digital audio/video data
US7555149B2 (en) Method and system for segmenting videos using face detection
US8938393B2 (en) Extended videolens media engine for audio recognition
KR100915847B1 (ko) 스트리밍 비디오 북마크들
Li et al. Video content analysis using multimodal information: For movie content extraction, indexing and representation
US20040143434A1 (en) Audio-Assisted segmentation and browsing of news videos
JP2004533756A (ja) 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示
KR20080114786A (ko) 다수의 이미지들 요약의 자동 생성 방법 및 장치
US7349477B2 (en) Audio-assisted video segmentation and summarization
Gagnon et al. A computer-vision-assisted system for videodescription scripting
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
Iwan et al. Temporal video segmentation: detecting the end-of-act in circus performance videos
JP5257356B2 (ja) コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム
Haloi et al. Unsupervised story segmentation and indexing of broadcast news video
Valdés et al. On-line video abstract generation of multimedia news
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
Darji et al. A REVIEW ONAUDIO FEATURES BASED EXTRACTION OF SONGS FROM MOVIES

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B601 Maintenance of original decision after re-examination before a trial
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20070521

Effective date: 20080228