KR100707189B1

KR100707189B1 - 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체

Info

Publication number: KR100707189B1
Application number: KR1020050036283A
Authority: KR
Inventors: 황두선; 엄기완; 김지연; 문영수
Original assignee: 삼성전자주식회사
Priority date: 2005-04-29
Filing date: 2005-04-29
Publication date: 2007-04-13
Also published as: KR20060114245A; US20060245724A1

Abstract

동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체가 개시된다. 이 장치는, 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 출력하는 세그먼트 생성부 및 세그먼트에서 샷의 변화율을 이용하여 광고 후보 세그먼트를 검출하는 광고 후보 세그먼트 검출부를 구비하고, 시각적 이벤트란 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 광고 후보 세그먼트란 광고 세그먼트의 후보가 되는 세그먼트를 의미하고, 광고 세그먼트란 광고를 내용으로서 갖는 세그먼트를 의미하는 특징으로 한다. 그러므로, 블랙 프레임이 존재하지 않은 다양한 형식의 텔레비젼 동영상에서도 광고 구간을 정확하게 검출할 수 있고, 높은 컷 율의 정의를 쉽게 할 수 있는 즉, 컷 율이 높은 것이 광고가 될 확률을 높여주고, 광고를 동영상으로부터 제거하도록 하여 동영상의 요약 성능을 향상시킬 수 있도록 할 뿐만 아니라 검출된 동영상의 광고를 사용자가 시청하기를 원하지 않을 때 광고를 스킵할 수 있도록 하고 컨텐츠 제공자용 저작 도구등에서 텔레비젼 방송의 광고를 제거할 수 있도록 하는 효과를 갖는다.

Description

동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체{Apparatus and method for detecting advertisment of moving-picture, and compter-readable storage storing compter program controlling the apparatus}

도 1은 본 발명에 의한 동영상의 광고 검출 장치의 실시예의 블럭도이다.

도 2는 본 발명에 의한 동영상의 광고 검출 방법을 설명하기 위한 플로우차트이다.

도 3은 도 1에 도시된 세그먼트 생성부의 본 발명에 의한 실시예의 블럭도이다.

도 4는 도 2에 도시된 제20 단계의 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 5 (a) 및 (b)는 도 3에 도시된 시각적 이벤트 검출부의 이해를 돕기 위한 그래프들이다.

도 6은 도 3에 도시된 시각적 샷 병합/분할부의 본 발명에 의한 실시예의 블럭도이다.

도 7 (a)~ (f)들은 도 3에 도시된 시각적 샷 병합/분할부의 이해를 돕기 위한 도면들이다.

도 8 (a) ~ (c)은 도 6에 도시된 시각적 샷 병합/분할부의 동작을 설명하기 위한 다른 도면들이다.

도 9는 도 1에 도시된 광고 후보 세그먼트 검출부의 본 발명에 의한 실시예의 블럭도이다.

도 10은 도 2에 도시된 제22 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 11은 광고 후보 세그먼트 출력부의 이해를 돕기 위한 도면이다.

도 12는 도 1에 도시된 청각적 샷 특징 추출부의 본 발명에 의한 실시예의 블럭도이다.

도 13은 도 2에 도시된 제24 단계의 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 14는 도 12에 도시된 오디오 특징값 생성부의 본 발명에 의한 실시예의 블럭도이다.

도 15는 도 1에 도시된 광고 세그먼트 확정부의 본 발명에 일 실시예의 블럭도이다.

도 16은 도 2에 도시된 제26 단계의 본 발명에 의한 일 실시예를 설명하기 위한 플로우차트이다.

도 17은 도 1에 도시된 광고 세그먼트 확정부의 본 발명에 다른 실시예의 블럭도이다.

도 18은 도 2에 도시된 제26 단계의 본 발명에 의한 다른 실시예를 설명하기 위한 플로우차트이다.

도 19는 본 발명에 의한 동영상의 광고 검출 장치가 적용되는 장치의 일 실시예의 블럭도이다.

도 20은 본 발명에 의한 동영상의 광고 검출 장치가 적용되는 장치의 다른 실시예의 블럭도이다.

도 21 ~ 도 23들은 본 발명에 의한 동영상의 광고 검출 장치 및 방법의 성능을 보여주는 테이블들이다.

미국 특허 번호 US4,750,052, US4,782,401, US5,911,029, US6,285,818, US6,469,749, US6,483,987, US6,714,594, US2004/0161154, US4,750,053, US4,857,999 및 US5,668,917

본 발명은 오디오 및/또는 비디오 저장 매체, 멀티미디어 개인용 컴퓨터, 미디어 서버(media server), 디지탈 다용도 디스크(DVD:Digital Versatile Disk) 레코더(Recorder), 디지탈 텔레비젼(digital television) 등과 같이 텔레비젼 방송 신호 또는 녹화되거나 저장된 동영상을 처리하거나 이용하는 기기에 관한 것으로서, 특히 동영상에 포함된 광고를 검출하는 장치 및 방법과 그 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.

동영상으로부터 광고를 검출하는 종래의 방법들중 몇 가지가 미국 특허 번호 US4,750,052, US4,782,401 및 US4,750,053에 개시되어 있다. 개시된 종래의 광고 검출 방법들은 블랙 프레임(black frame)을 기반으로 광고를 검출한다. 그러나, 이러한 종래의 방법은 장면 전환의 기법인 페이드 인(fade-in) 및 페이드 아웃(fade-out) 효과에 의해 발생되는 블랙 프레임을 광고 구간으로 잘못 검출할 수 있는 문제점을 갖는다. 게다가, 광고에 블랙 프레임을 삽입하는 경향이 점차 줄어드는 추세에 비추어 볼 때, 이러한 종래의 블랙 프레임을 기반으로 하는 광고 검출 방법은 한계를 갖는다.

높은 컷 율(high cut-rate)을 이용하여 광고를 검출하는 종래의 방법이 미국 특허 번호 US6,469,749 및 US6,714,594에 개시되어 있다. 개시된 종래의 방법은 높은 컷 율을 정의하기 어렵고, 높은 컷 율의 가변성 때문에 동영상으로부터 광고를 정확하게 검출할 수 없는 문제점을 갖는다. 즉, 광고의 종류는 다양하며, 드라마성 광고에서는 컷 율이 낮고, 뮤직(music)성 광고에서는 컷 율이 높은 경향을 갖는다.

동영상으로부터 광고를 검출하는 종래의 다른 방법들이 미국 특허 번호 US5,911,029, US6,285,818, US6,483,987, US2004/0161154, US4,857,999 및 US5,668,917에 개시되어 있다. 이러한 종래의 방법들은 동영상으로부터 광고와 비 광고를 구분할 수 있는 특징치를 부족하게 가지므로, 광고를 정확하게 검출할 수 없는 문제점을 갖는다.

본 발명이 이루고자 하는 기술적 과제는, 동영상의 시각적 성분을 이용하여 부가적으로는 청각적 성분과 자막 정보를 더 이용하여 동영상의 광고를 정확하게 검출할 수 있는 동영상의 광고 검출 장치를 제공하는 데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는, 동영상의 시각적 성분을 이용하여 부가적으로는 청각적 성분과 자막 정보를 더 이용하여 동영상의 광고를 정확하게 검출할 수 있는 동영상의 광고 검출 방법을 제공하는 데 있다.

본 발명이 이루고자 하는 또 다른 기술적 과제는, 상기 동영상의 광고 검출 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체를 제공하는 데 있다.

상기 과제를 이루기 위한 본 발명에 의한 동영상의 광고 검출 장치는, 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 출력하는 세그먼트 생성부 및 상기 세그먼트에서 샷의 변화율을 이용하여 광고 후보 세그먼트를 검출하는 광고 후보 세그먼트 검출부로 구성되고, 상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 광고 후보 세그먼트란 광고 세그먼트의 후보가 되는 세그먼트를 의미하고, 상기 광고 세그먼트란 광고를 내용으로서 갖는 세그먼트를 의미하는 것이 바람직하다.

상기 다른 과제를 이루기 위한 본 발명에 의한 동영상의 광고 검출 방법은, 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 결정하는 단계 및 상기 세그먼트에서 샷의 변화율을 이용하여 광고 후보 세그먼트를 검출하는 단계로 이루어지고, 상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 광고 후보 세그먼트란 광고 세그먼트의 후보가 되는 세그먼트를 의미하고, 상기 광고 세그먼트란 광고를 내용으로서 갖는 세그먼트를 의미하는 것이 바람직하다.

상기 또 다른 과제를 이루기 위해, 동영상의 광고 검출 방법을 수행하는 동영상의 광고 검출 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 본 발명에 의한 기록 매체에 있어서, 상기 동영상의 광고 검출 방법은 상기 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 결정하는 단계 및 상기 세그먼트에서 샷의 변화율을 이용하여 광고 후보 세그먼트를 검출하는 단계로 이루어지고, 상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 광고 후보 세그먼트란 광고 세그먼트의 후보가 되는 세그먼트를 의미하고, 상기 광고 세그먼트란 광고를 내용으로서 갖는 세그먼트를 의미하는 것이 바람직하다.

이하, 본 발명에 의한 동영상의 광고 검출 장치 및 그 실시예들 각각의 구성 및 동작과 그 장치에서 수행되는 광고 검출 방법을 첨부한 도면들을 참조하여 다음과 같이 설명한다.

도 1은 본 발명에 의한 동영상의 광고 검출 장치의 실시예의 블럭도로서, 세 그먼트(segment) 생성부(10), 광고 후보 세그먼트 검출부(12), 청각적 샷(shot) 특징 추출부(14) 및 광고 세그먼트 확정부(16)로 구성된다.

도 2는 본 발명에 의한 동영상의 광고 검출 방법을 설명하기 위한 플로우차트로서, 세그먼트를 결정하는 단계(제20 단계), 광고 후보 세그먼트를 검출하는 단계(제22 단계), 청각적 샷 특징들을 추출하는 단계(제24 단계) 및 광고 후보 세그먼트가 광고 세그먼트인가의 여부를 확정짓는 단계(제26 단계)로 이루어진다.

본 발명의 일 실시예에 의하면, 도 1에 도시된 동영상의 광고 검출 장치는 세그먼트 생성부10) 및 광고 후보 세그먼트 검출부(12)만으로 구현될 수 있다. 이 경우, 도 2에 도시된 동영상의 광고 검출 방법은 제20 및 제22 단계들만으로 구현될 수 있다. 이 때, 도 2에 도시된 제20 및 제22 단계들은 도 1에 도시된 세그먼트 생성부(10) 및 광고 후보 세그먼트 검출부(12)에서 각각 수행될 수 있다.

도 1에 도시된 세그먼트 생성부(10)는 입력단자 IN1을 통해 동영상의 시각적(visual) 성분을 입력하고, 입력한 동영상의 시각적 성분으로부터 시각적 이벤트(event)의 성분을 검출하며, 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 결정하여 출력한다(제20 단계). 여기서, 동영상의 시각적 성분이란, 동영상에 포함되는 샷들의 시간 정보, 샷들의 컬러 정보 및 페이드 프레임(fade frame)의 시간 정보 등을 의미한다. 시각적 이벤트란, 동영상에서 내용이 전환되는 부분에 의도적으로 삽입되는 그래픽 효과를 의미한다. 따라서, 시각적 이벤트가 발생하면 내용의 전환이 발생한다고 볼 수 있다. 예를 들어, 시각적 이벤트로서, 페이드 효과, 디졸브(dissolve) 효 과 또는 와이프(wipe) 효과 등이 있다.

도 3은 도 1에 도시된 세그먼트 생성부(10)의 본 발명에 의한 실시예(10A)의 블럭도로서, 시각적 이벤트 검출부(60), 장면 전환 검출부(62) 및 시각적 샷 병합/분할부(64)로 구성된다.

도 4는 도 2에 도시된 제20 단계의 본 발명에 의한 실시예(20A)를 설명하기 위한 플로우차트로서, 시각적 이벤트의 성분을 검출하는 단계(제80 단계), 샷의 시간 정보와 컬러 정보를 생성하는 단계(제82 단계) 및 샷들을 병합하거나 분할하는 단계(제84 단계)로 이루어진다.

도 3에 도시된 시각적 이벤트 검출부(60)는 입력단자 IN3을 통해 동영상의 시각적 성분을 입력하고, 입력한 동영상의 시각적 성분으로부터 시각적 이벤트의 성분을 검출하며, 검출된 시각적 이벤트의 성분을 시각적 샷 병합/분할부(64)로 출력한다(제80 단계).

도 5 (a) 및 (b)는 도 3에 도시된 시각적 이벤트 검출부(60)의 이해를 돕기 위한 그래프들로서, 각 그래프에서 횡축은 밝기 레벨을 나타내고, 종축은 빈도를 각각 나타내며, N'은 밝기 레벨의 가장 큰 값을 나타낸다.

본 발명의 이해를 돕기 위해, 시각적 이벤트가 페이드 효과라고 가정한다. 이 때, 페이드 효과의 경우, 페이드 인되는 프레임과 페이드 아웃되는 프레임의 사이에 존재하는 프레임들의 중심에는 단일색의 프레임이 존재한다. 여기서, 페이드 인 프레임과 페이드 아웃되는 프레임은 모두 전술한 페이드 프레임에 해당한다. 따라서, 시각적 이벤트 검출부(60)는 동영상의 시각적 성분의 컬러 히스토그램 특징 을 이용하여 페이드 효과의 중심에 위치한 단일 색의 프레임을 검출하고, 검출한 단일 색의 프레임을 시각적 이벤트의 성분으로서 출력할 수 있다. 예를 들어, 단일 색의 프레임은 도 5 (a)에 도시된 바와 같이 블랙 프레임(black frame)이 될 수도 있고, 도 5 (b)에 도시된 바와 같이 화이트 프레임(white frame)이 될 수도 있다.

제80 단계 후에, 장면 전환 검출부(62)는 입력단자 IN3을 통해 동영상의 시각적 성분을 입력하고, 입력한 시각적 성분에서 장면이 전환되는 부분을 검출하여 출력단자 OUT4를 통해 광고 후보 세그먼트 검출부(12)로 출력하며, 또한 검출된 결과를 이용하여 동일 장면 구간의 시간 정보와 컬러 정보를 생성하며, 생성된 동일 장면 구간의 시간 정보와 컬러 정보를 시각적 샷 병합/분할부(64)로 출력한다(제82 단계). 여기서, 동일 장면 구간이란, 장면이 전환되는 부분들 사이에 포함되는 프레임들의 묶음 즉, 장면이 전환되는 어느 시점의 프레임부터 장면이 다시 전환될 때의 프레임까지 다수개의 프레임들로 이루어지며, '샷'이라고도 한다. 이 때, 장면 전환 검출부(62)는 각 샷으로부터 단수 또는 복수개의 대표 영상 프레임을 선택하고, 선택된 대표 영상 프레임의 시간 정보와 컬러 정보를 출력할 수도 있다. 장면 전환 검출부(62)에서 수행되는 동작 즉, 동영상의 시각적 성분으로부터 장면이 전환되는 부분을 검출하는 방법은, 예를 들면, 미국 특허 번호 US5,767,922, US6,137,544 및 US6,393,054에 개시되어 있다.

본 발명에 의하면, 도 4에 도시된 바와 달리, 제82 단계가 제80 단계보다 먼저 수행될 수도 있고, 제80 및 제82 단계들이 동시에 수행될 수도 있다.

제82 단계후에, 시각적 샷 병합/분할부(64)는 장면 전환 검출부(62)로부터 입력한 샷들의 컬러 정보들을 이용하여, 그 샷들의 유사성을 분석하고, 분석한 유사성과 시각적 이벤트 검출부(60)로부터 입력한 시각적 이벤트 성분에 의해 그 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 출력단자 OUT3을 통해 출력한다(제84 단계).

도 6은 도 3에 도시된 시각적 샷 병합/분할부(64)의 본 발명에 의한 실시예(64A)의 블럭도로서, 버퍼(100), 유사성 산출부(102), 병합부(104) 및 분할부(106)로 구성된다.

버퍼(100)는 장면 전환 검출부(62)로부터 입력단자 IN4를 통해 입력한 샷들의 컬러 정보들을 저장 즉, 버퍼링한다.

유사성 산출부(102)는 버퍼(100)에 저장된 컬러 정보들중 탐색 윈도우(search window)에 속하는 컬러 정보들을 독출하고, 독출한 컬러 정보들을 이용하여 샷들의 컬러 유사성을 산출하고, 산출된 컬러의 유사성을 병합부(104)로 출력한다. 여기서, 탐색 윈도우의 크기 즉, 탐색 윈도우에 포함되는 샷의 개수는 제1 소정수로서, EPG(Electronic Program Guide) 정보에 따라 달리 결정될 수 있다. 본 발명에 의하면, 유사성 산출부(102)는 다음 수학식 1과 같이 컬러 유사성을 산출할 수 있다.

여기서, Sim(H₁, H₂)는 장면 전환 검출부(62)로부터 입력한 두 샷들(H₁ 및 H₂)에 대한 컬러 정보들을 이용하여 산출한 컬러 유사성을 나타내고, H₁(n) 및 H₂(n)는 두 샷들의 컬러 히스토그램(color histogram)들을 각각 나타내고, N은 히스토그램의 레벨을 나타내고, min(x,y)는 x와 y중 최소값을 나타내는 기존의 컬러 히스토그램 인터섹션 방법을 이용한다.

병합부(104)는 유사성 산출부(102)에서 산출된 컬러 유사성과 임계값을 비교하고, 비교된 두 샷들을 비교된 결과에 응답하여 병합한다. 예를 들어, 컬러 유사성이 임계값 이상이면 두 샷들을 병합할 수 있다.

이 때, 시각적 샷 병합/분할부(64)는 분할부(106)를 더 마련할 수 있다. 분할부(106)는 입력단자 IN5를 통해 시각적 이벤트 검출부(60)로부터 시각적 이벤트 성분이 입력될 경우, 즉, 병합부(104)에서 병합된 결과가 시각적 이벤트 성분을 가질 경우, 병합부(104)에서 병합된 결과를 시각적 이벤트 성분을 기준으로 분할하며, 분할된 결과를 세그먼트로서 출력단자 OUT5를 통해 출력한다.

본 발명의 일 실시예에 의하면, 도 6에 도시된 바와 같이, 병합부(104)와 분할부(106)가 별도로 마련된다. 이 경우, 병합 동작이 먼저 수행된 후 분할동작이 나중에 수행된다.

본 발명의 다른 실시예에 의하면, 시각적 샷 병합/분할부(64)는 병합부(104)와 분할부(106)를 별도로 마련하는 대신에, 병합부(104)와 분할부(106)를 통합한 하나의 병합/분할부(108)를 마련할 수도 있다. 이 때, 병합/분할부(108)는 병합할 샷들과 분할할 샷들을 최종적으로 결정한 후에, 병합할 샷들을 병합한다.

도 7 (a)~ (f)들은 도 3에 도시된 시각적 샷 병합/분할부(64)의 이해를 돕기 위한 도면들로서, 도 7 (a) 및 (d)들 각각은 일련의 샷들을 화살표 방향으로 시간이 경과되는 순서에서 나타내고, 도 7 (b), (c), (e) 및 (f)들은 도 6에 도시된 버퍼(100)와 세그먼트의 식별 번호(SID)가 매칭되는 모습을 나타내는 테이블들이다. 각 테이블에서, 'B#'은 버퍼의 번호 즉, 샷의 번호를 나타내고, '?'는 SID가 아직 결정되지 않았음을 나타낸다.

본 발명의 이해를 돕기 위해, 탐색 윈도우의 크기 즉, 제1 소정수를 '8'로서 가정하지만, 본 발명은 이에 국한되지 않는다.

먼저, 도 7 (a)에 도시된 탐색 윈도우(110)에 속하는 샷들(1 ~ 8)을 병합하거나 분할하고자 할 경우, 도 7 (b)에 도시된 바와 같이 첫 번째 버퍼(B#=1)의 SID를 임의의 숫자 편의상 예를 들면 '1'로 도 7 (b)에 도시된 바와 같이 설정한다. 이 때, 유사성 산출부(102)는 첫 번째 버퍼(B#=1)에 저장된 샷의 컬러 정보와 두 번째(B#=2) 부터 여덟번째 버퍼들(B#=8)에 저장된 샷들의 컬러 정보들을 서로 두 개씩 비교하여 두 샷들의 유사성을 산출한다.

예를 들어, 유사성 산출부(102)는 두 개의 샷들의 유사성을 버퍼의 끝에서부터 검사할 수 있다. 즉, 유사성 산출부(102)는 첫 번째 버퍼(B#=1)에 저장된 컬러 정보와 여덟 번째 버퍼(B#=8)에 저장된 컬러 정보를 비교한 후, 첫 번째 버퍼(B#=1)에 저장된 컬러 정보와 일곱 번째 버퍼(B#=7)에 저장된 컬러 정보를 비교한 후, 첫 번째 버퍼(B#=1)에 저장된 컬러 정보와 여섯 번째 버퍼(B#=6)에 저장된 컬 러 정보를 비교하는 등, 버퍼의 끝에서부터 두 샷들의 유사성을 검사한다고 가정하자.

이러한 가정하에서, 먼저 병합/분할부(108)는 유사성 산출부(102)에서 산출된 첫 번째 버퍼(B#=1)와 여덟번째 버퍼(B#=8)간의 유사성[Sim(H₁,H₈)]과 임계값을 비교한 결과를 통해 첫 번째 버퍼(B#=1)와 여덟번째 버퍼(B#=8)간의 유사성[Sim(H₁,H₈)]이 임계값보다 적다고 판단되면, 유사성 산출부(102)에서 산출된 첫 번째 버퍼(B#=1)와 일곱번째 버퍼(B#=7)간의 유사성[Sim(H₁,H₇)]이 임계값 이상인가를 판단한다. 이 때, 병합/분할부(108)는 첫 번째 버퍼(B#=1)와 일곱번째 버퍼(B#=7)간의 유사성[Sim(H₁,H₇)]이 임계값 이상인 것으로 판단되면, 첫 번째 버퍼(B#=1) 부터 일곱번째 버퍼(B#=7)까지의 모든 SID를 '1'로 설정한다. 이 때, 두 번째 버퍼(B#=2) ~ 여섯 번째 버퍼(B#=6)에 저장된 컬러 정보들 각각과 첫 번째 버퍼(B#=1)에 저장된 컬러 정보의 유사성을 산출되지 않는다. 따라서, 병합/분할부(108)는 동일한 SID를 갖는 첫 번째 샷들로부터 일곱번째 샷들을 모두 병합한다.

그러나, 시각적 이벤트, 예를 들면 페이드 효과를 부여하기 위해 네 번째 샷에 블랙 프레임이 포함되어 있다고 가정한다. 이 경우, 병합/분할부(108)는 입력단자 IN5를 통해 시각적 이벤트 검출부(60)로부터 시각적 이벤트의 성분이 입력될 때, 도 7 (c)에 도시된 바와 같이 첫 번째 버퍼(B#=1)부터 네 번째 버퍼(B#=4)까지의 SID에만 '1'을 부여하고, 다섯 번째 버퍼(B#=5)의 SID에 '2'를 부여한다. 이 때, 병합/분할부(108)는 동일한 SID를 갖는 첫 번째 샷들부터 네 번째 샷들을 병합한 다.

병합/분할부(108)는 다섯 번째 샷을 기준으로 새로운 탐색 윈도우 즉, 도 7 (d)에 도시된 탐색 윈도우(112)에 속하는 샷들(5 ~ 12)을 병합할 것인가 분할할 것인가를 조사한다. 이 때, 초기 상태에서 탐색 윈도우(112)에 속하는 다섯 번째 샷들부터 열 두번째 샷들의 SID는 도 7 (e)에 도시된 바와 같다.

병합/분할부(108)는 유사성 산출부(102)에서 산출된 다섯 번째 버퍼(B#=5)에 저장된 컬러 정보와 열 두번째 버퍼(B#=12)에 저장된 컬러 정보간의 유사성[Sim(H₅,H₁₂)]과 임계값을 비교한 결과를 통해 산출한 컬러 유사성[Sim(H₅,H₁₂)]이 임계값보다 적다고 판단되면, 유사성 산출부(102)에서 산출된 다섯 번째 버퍼(B#=5)에 저장된 컬러 정보와 열한번째 버퍼(B#=11)에 저장된 컬러 정보간의 유사성[Sim(H₅,H₁₁)]이 임계값 이상인가를 판단한다. 이 때, 병합/분할부(108)는 컬러 유사성[Sim(H₅,H₁₁)]이 임계값 이상인 것으로 판단되면, 다섯 번째 버퍼(B#=5)부터 열한번째 버퍼(B#=11)까지의 모든 SID를 도 7 (f)에 도시된 바와 같이 '2'로 설정한다. 이 때, 시각적 이벤트가 없을 경우, 병합/분할부(108)는 동일한 SID '2'를 갖는 다섯 번째 샷들부터 열한 번째 샷들을 병합한다.

시각적 샷 병합/분할부(64A)는 전술한 동작을 버퍼(100)에 저장된 샷들의 컬러 정보들을 이용하여 모든 샷들에 대해 즉, 버퍼(100)에 저장된 모든 B#에 대해 SID가 구해질 때까지 수행한다.

도 8 (a) ~ (c)은 도 6에 도시된 시각적 샷 병합/분할부(64A)의 동작을 설명 하기 위한 다른 도면들로서, 횡축은 시간을 나타낸다.

예를 들어, 병합부(104)가 도 8 (a)에 도시된 바와 같은 샷들(101, 103, 105, 119, 107, 109 및 111)을 도 8 (b)에 도시된 바와 같이 병합하였다고 가정한다. 이 때, 병합된 샷들로 이루어진 세그먼트(114)에서 중간에 위치하는 샷(119)이 시각적 이벤트 예를 들면 페이드 효과를 부여하기 위한 블랙 프레임 즉, 시각적 이벤트의 성분을 포함할 경우, 분할부(106)는 입력단자 IN5를 통해 입력한 시각적 이벤트의 성분을 갖는 샷(119)을 기준으로 세그먼트(114)를 두 개의 세그먼트들(116 및 118)로 양분한다.

한편, 제20 단계후에, 광고 후보 세그먼트 검출부(12)는 세그먼트 생성부(10)에서 생성된 세그먼트내에 포함되는 샷들의 변화율을 이용하여 광고 후보 세그먼트를 검출하고, 검출된 광고 후보 세그먼트를 광고 세그먼트 확정부(16)로 출력한다(제22 단계). 여기서, 광고 후보 세그먼트란 광고 세그먼트의 후보가 되는 세그먼트를 의미하고, 광고 세그먼트란 광고를 내용으로서 갖는 세그먼트를 의미한다. 이 때, 도 1에 도시된 동영상의 광고 검출 장치가 세그먼트 생성부(10)와 광고 후보 세그먼트 검출부(12)만으로 구현될 경우, 광고 후보 세그먼트 검출부(12)는 검출된 광고 후보 세그먼트를 광고 세그먼트 확정부(16)로 출력하는 대신에 출력단자 OUT1을 통해 출력한다.

도 9는 도 1에 도시된 광고 후보 세그먼트 검출부(12)의 본 발명에 의한 실시예(12A)의 블럭도로서, 변화율 산출부(120), 변화율 비교부(122) 및 광고 후보 세그먼트 출력부(124)로 구성된다.

도 10은 도 2에 도시된 제22 단계에 대한 본 발명에 의한 실시예(22A)를 설명하기 위한 플로우차트로서, 샷의 변화율을 산출하여 변화율 임계값과 비교하는 단계(제126 및 제128 단계들) 및 세그먼트가 광고 후보 세그먼트인가의 여부를 결정하는 단계(제130 및 제132 단계)들로 이루어진다.

변화율 산출부(120)는 세그먼트 생성부(10)로부터 입력단자 IN6을 통해 입력한 세그먼트내에서 샷의 변화율을 도 3에 도시된 세그먼트 생성부(10A)의 장면 전환 검출부(62)에서 검출된 장면이 전환되는 부분을 이용하여 다음 수학식 2와 같이 산출하고, 산출된 샷의 변화율을 변화율 비교부(122)로 출력한다(제126 단계). 이를 위해, 변화율 산출부(120)는 입력단자 IN7을 통해 장면 전환 검출부(62)로부터 장면이 전환되는 부분을 입력한다.

여기서, SCR(Shots Change Rate within the segment shot)은 샷의 변화율을 나타내고, S는 세그먼트 생성부(10)에서 생성된 세그먼트에 포함되는 샷의 개수로서 장면이 전환되는 부분을 이용하여 구해지고, N#은 세그먼트 생성부(10)에서 생성한 세그먼트에 포함되는 프레임의 개수를 각각 나타낸다.

제126 단계후에, 변화율 비교부(122)는 변화율 산출부(120)에서 산출된 샷의 변화율과 변화율 임계값을 비교하고, 비교된 결과를 광고 후보 세그먼트 출력부(124)로 출력한다(제128 단계). 즉, 변화율 비교부(122)는 샷의 변화율이 변화율 임계값 이상인가를 판단한다.

이 때, 광고 후보 세그먼트 출력부(124)는 변화율 비교부(122)에서 비교된 결과에 응답하여, 변화율 산출부(120)로 입력된 세그먼트 즉, 입력단자 IN6을 통해 세그먼트 생성부(19)로부터 입력된 세그먼트를 광고 후보 세그먼트로서 결정하여 출력단자 OUT6을 통해 출력한다(제130 단계).

예컨대, 광고 후보 세그먼트 출력부(124)는 변화율 비교부(122)에서 비교된 결과를 통해 샷의 변화율이 변화율 임계값 이상인 것으로 판단되면, 샷의 변화율을 산출할 때 이용된 세그먼트를 광고 후보 세그먼트로서 결정한다(제130 단계). 그러나, 광고 후보 세그먼트 출력부(124)는 변화율 비교부(122)에서 비교된 결과를 통해 샷의 변화율이 변화율 임계값 보다 적은 것으로 판단되면, 샷의 변화율을 산출할 때 이용된 세그먼트가 광고 후보 세그먼트가 아닌 것으로 결정한다(제132 단계).

본 발명에 의하면, 광고 후보 세그먼트 출력부(124)는 광고 후보 세그먼트들을 병합하거나 확장할 수 있다.

본 발명의 실시예에 의하면, 광고 후보 세그먼트 출력부(124)는 연속하는 광고 후보 세그먼트들을 병합할 수 있다.

본 발명의 다른 실시예에 의하면, 광고 후보 세그먼트들 사이에 광고 비 후보 세그먼트가 존재할 때, 그 사이에 존재하는 광고 비후보 세그먼트가 광고 후보 세그먼트인 것으로 간주하면서, 광고 후보 세그먼트의 영역을 확장시킬 수도 있다. 여기서, 광고 비 후보 세그먼트란 광고 세그먼트의 후보가 아닌 세그먼트를 의미한 다. 이러한 실시예는, 다수의 광고가 연이어 나타나는 방송용 동영상에서 일정한 세그먼트들만을 드문 드문 검사한 후, 광고 후보 세그먼트의 영역을 확장시키는 데 유용하게 이용될 수 있다.

도 11은 광고 후보 세그먼트 출력부(124)의 이해를 돕기 위한 도면으로서, 세 개의 세그먼트들(133, 134 및 135)로 이루어진다.

먼저, 세그먼트들(133, 134 및 135)이 모두 광고 후보 세그먼트들일 경우, 광고 후보 세그먼트 출력부(124)는 연속하는 광고 후보 세그먼트들(133, 134 및 135)을 병합하여 출력할 수 있다.

다음으로, 세그먼트들(133, 134 및 135)중 세그먼트들(133 및 135)은 광고 후보 세그먼트들이고, 광고 후보 세그먼트들(133 및 135)의 사이에 위치한 세그먼트(134)는 광고 비 후보 세그먼트라고 가정한다. 이 경우, 광고 비후보 세그먼트(134)는 광고 후보 세그먼트인 것으로 간주하면서, 즉, 광고 후보 세그먼트 출력부(124)는 광고 비 후보 세그먼트(134)와 광고 후보 세그먼트들(133 및 135)들을 모두 병합하여 광고 후보 세그먼트의 영역을 사실상 확장시킨다.

도 1에 도시된 동영상의 광고 검출 장치는 청각적 샷 특징 추출부(14) 및 광고 세그먼트 확정부(16)를 더 마련할 수 있다. 이 경우, 도 2에 도시된 동영상의 광고 검출 방법은 제24 및 제26 단계들을 더 마련할 수 있다. 도 2에 도시된 제24 및 제26 단계들은 청각적 샷 특징 추출부(14) 및 광고 세그먼트 확정부(16)에서 각각 수행될 수 있다.

제22 단계후에, 청각적 샷 특징 추출부(14)는 입력단자 IN2을 통해 동영상의 청각적 성분을 입력하고, 입력한 청각적 성분으로부터 청각적 이벤트의 성분을 검출하며, 검출한 청각적 이벤트의 성분과 세그먼트 생성부(10)에서 생성된 세그먼트를 이용하여 청각적 샷 특징들을 추출하며, 추출한 샷 특징들을 광고 세그먼트 확정부(16)로 출력한다(제24 단계). 여기서, 청각적 이벤트란 청각적 성분을 구분짖는 소리의 종류를 의미하며, 청각적 이벤트의 성분은 예를 들면, 음악(music), 음성(Speech), 주변 소리(Enviroment Sound) 및 묵음(silence)중 적어도 하나가 될 수 있다.

본 발명에 의하면, 도 2에 도시된 바와 달리, 제24 단계가 제22 단계보다 먼저 수행될 수도 있고, 제22 및 제24 단계들이 동시에 수행될 수도 있다.

도 12는 도 1에 도시된 청각적 샷 특징 추출부(14)의 본 발명에 의한 실시예(14A)의 블럭도로서, 오디오 특징값 생성부(137), 청각적 이벤트 검출부(138) 및 특징 추출부(139)로 구성된다.

도 13은 도 2에 도시된 제24 단계의 본 발명에 의한 실시예(24A)를 설명하기 위한 플로우차트로서, 오디오 특징값을 결정하는 단계(제140 단계), 청각적 이벤트의 성분을 검출하는 단계(제142 단계) 및 청각적 샷 특징들을 추출하는 단계(제144 단계)로 이루어진다.

도 12에 도시된 오디오 특징값 생성부(137)는 입력단자 IN8을 통해 동영상의 청각적 성분을 입력하고, 입력한 청각적 성분으로부터 오디오 피쳐(feature)들을 프레임 단위로 추출하고, 제2 소정수의 프레임들에 대한 오디오 피쳐들의 평균 및 표준편차들을 오디오 특징값으로서 청각적 이벤트 검출부(138)로 출력한다(제140 단계). 여기서, 오디오 피쳐란, MFCC(Mel-Frequency Cepstral Coefficient), Spectral Flux, Centroid, Rolloff, ZCR, Energy 또는 Picth 정보가 될 수 있고, 제2 소정수는 2이상의 양의 정수로서 예를 들면 '40'이 될 수 있다.

도 14는 도 12에 도시된 오디오 특징값 생성부(137)의 본 발명에 의한 실시예(137A)의 블럭도로서, 프레임 단위 분할부(150), 피쳐 추출부(152) 및 평균/표준 편차 산출부(154)로 구성된다.

프레임 단위 분할부(150)는 입력단자 IN10을 통해 입력한 동영상의 청각적 성분을 소정 시간 예를 들면 24㎳의 프레임 단위로 분할한다. 이 때, 피쳐 추출부(152)는 분할된 프레임 단위들 각각의 오디오 피쳐들을 추출한다. 평균/표준편차 산출부(154)는 피쳐 추출부(152)에서 제2 소정수의 프레임들에 대해 추출한 제2 소정수의 오디오 피쳐들의 평균과 표준 편차를 산출하고, 산출한 평균과 표준 편차를 오디오 특징값으로서 결정하여 출력단자 OUT8을 통해 출력한다.

동영상의 청각적 성분으로부터 오디오 특징값을 생성하는 종래의 방법들중에서 몇 가지가 "Method and article of manufacture for content-based analysis, storage, retrieval and segmentation of audio information"라는 제목을 갖는 미국 특허 번호 US5,918,223, "Extracting classifying data in music from an audio bitstream"라는 제목을 갖는 미국 특허 번호 US20030040904, "Audio Feature Extraction and Analysis for Scene Segmentation and Classification"라는 제목으로 Journal of VLSI Signal Processing Systems archive Volumn 20의 페이지 61-79쪽들에 1998년도에 실려 'Zhu Liu', 'Yao Wang' 및 'Tsuhan Chen'에 의해 발표된 논문 및 "SVM-based audio classification for instruction al('al'이 삭제되어야 하나요 존재해야 하나요?) video analysis"라는 제목으로 ICASSP2004, 2004에 'Ying Li' 및 'Chitra Dorai'에 의해 발표된 논문에 개시되어 있다.

제140 단계후에, 청각적 이벤트 검출부(138)는 오디오 특징값 생성부(137)로부터 입력한 오디오 특징값을 이용하여 청각적 이벤트의 성분을 검출하고, 검출된 청각적 이벤트의 성분을 특징 추출부(139)로 출력한다(제142 단계).

오디오 특징값으로부터 청각적 이벤트의 성분들을 검출하는 종래의 방법들중 몇 가지로서, GMM(Gaussian Mixture Model), HMM(Hidden Markov Model), NN(Neural Network) 또는 SVM(Support Vector Machine) 등의 다양한 통계적 학습 모델이 사용될 수 있다. 여기서, SVM을 이용하여 청각적 이벤트를 검출하는 종래의 방법이 "SVM-based audio classification for instructional video analysis"라는 제목으로 ICASSP2004, 2004에 'Ying Li' 및 'Chitra Dorai'에 의해 발표된 논문에 개시되어 있다.

제142 단계후에, 특징 추출부(139)는 청각적 이벤트 검출부(138)에서 검출한 청각적 이벤트의 성분과 세그먼트 생성부(10)에서 생성되어 입력단자 IN9를 통해 입력되는 세그먼트를 이용하여, 청각적 샷 특징들을 추출하고, 추출된 청각적 샷 특징들을 출력단자 OUT7을 통해 광고 세그먼트 확정부(16)로 출력한다(제144 단계).

세그먼트 생성부(10)에서 생성된 세그먼트 단위로, 도 12에 도시된 특징 추출부(139)는 청각적 이벤트의 성분의 변화율, 청각적 이벤트의 성분들중 음악이 차 지하는 비율 및 동일한 청각적 이벤트의 성분들로 구성된 시퀀스의 최대 지속 시간중 적어도 하나를 청각적 샷 특징들로서 결정할 수 있다.

여기서, 특징 추출부(139)는 단위 시간 즉, 세그먼트 생성부(10)에서 생성된 단위 세그먼트에서, 청각적 이벤트의 성분의 변화율을 다음 수학식 3과 같이 구할 수 있다. 예를 들어, 청각적 이벤트의 성분이 전술한 바와 같이 음악, 음성, 주변 소리 및 묵음일 때, 음악, 음성, 주변 소리 및 묵음이 변하는 변화율은 다음 수학식 3과 같이 구할 수 있다.

여기서, ACCR(Audio Class Change Rate within the segment shot)은 청각적 이벤트 검출부(138)에서 검출된 청각적 이벤트의 성분의 변화율을 나타내고, J는 세그먼트 생성부(10)에서 생성된 세그먼트에 포함되는 오디오 클립(clip)의 개수를 나타내고, 클립이란 청각적 성분을 분류하는 최소 단위로서 예를 들면 약 1초가 될 수 있다. C(j)은 j번째 오디오 클립의 청각적 이벤트의 성분들의 종류를 나타낸다. 이 때, H[C(j),C(j-1)]는 다음 수학식 4와 같다.

또한, 특징 추출부(139)는 단위 시간 즉, 세그먼트 생성부(10)에서 생성된 단위 세그먼트에서, 청각적 이벤트의 성분들중 음악이 차지하는 비율을 다음 수학식 5와 같이 구할 수 있다.

여기서, MCR(Music Class Ratio within the segment shot)은 청각적 이벤트의 성분들중 음악이 차지하는 비율을 나타내고, M은 세그먼트 생성부(10)에서 생성된 세그먼트에 포함되는 동일한 청각적 이벤트의 성분들로 구성된 시퀀스들의 개수를 나타내고, SM[C(j),"Music"]는 다음 수학식 6과 같다.

또한, 특징 추출부(139)는 단위 시간 즉, 세그먼트 생성부(10)에서 생성된 단위 세그먼트에서, 동일한 청각적 이벤트의 성분들로 구성된 시퀀스의 최대 지속 시간을 다음 수학식 7과 같이 구할 수 있다.

여기서, MDS(The Max-Duration of the Sequence with same audio classes within the segment shot)는 동일한 청각적 이벤트의 성분들로 구성된 시퀀스의 최대 지속 시간을 나타내고, d_s(m)은 m번째 시퀀스의 오디오 클립의 개수를 나타낸다.

한편, 제24 단계후에, 광고 세그먼트 확정부(16)는 청각적 샷 특징 추출부(14)에서 추출된 청각적 샷 특징들을 이용하여, 광고 후보 세그먼트 검출부(12)에서 검출된 광고 후보 세그먼트가 광고 세그먼트인가의 여부를 확정짓고, 확정된 결과를 출력단자 OUT2를 통해 출력한다(제26 단계).

도 15는 도 1에 도시된 광고 세그먼트 확정부(16)의 본 발명에 일 실시예(16A)의 블럭도로서, 임계값 비교부(170) 및 광고 구간 결정부(172)로 구성된다.

도 16은 도 2에 도시된 제26 단계의 본 발명에 의한 일 실시예(26A)를 설명하기 위한 플로우차트로서, 청각적 샷 특징들과 특징 임계값들을 비교한 결과에 따라 광고의 시작과 끝을 결정하는 단계(제190 ~ 제194 단계들)로 이루어진다.

임계값 비교부(170)는 입력단자 IN11을 통해 청각적 샷 특징 추출부(14)로부터 입력한 추출된 청각적 샷 특징들과 특징 임계값들을 비교하고, 비교된 결과를 광고 구간 결정부(172)로 출력한다(제190 단계). 즉, 임계값 비교부(170)는 추출된 청각적 샷 특징들이 특징 임계값들보다 큰가를 판단한다.

광고 구간 결정부(172)는 임계값 비교부(170)에서 비교된 결과에 응답하여, 입력단자 IN12를 통해 광고 후보 세그먼트 검출부(12)로부터 입력한 광고 후보 세그먼트가 광고 세그먼트인가의 여부를 확정짓고, 광고 후보 세그먼트가 광고 세그 먼트인 경우 광고 세그먼트의 시작(프레임)과 끝(프레임)을 광고의 시작과 끝으로서 결정한다(제192 단계).

즉, 광고 구간 결정부(172)는 임계값 비교부(170)에서 비교된 결과를 통해 추출된 청각적 샷 특징들이 특징 임계값들보다 큰 것으로 판단되면, 광고 후보 세그먼트를 광고 세그먼트로서 결정하고, 광고 후보 세그먼트의 시작과 끝을 광고의 시작과 끝으로서 결정하며, 결정된 결과를 출력단자 OUT9를 통해 출력한다. 그러나, 광고 구간 결정부(172)는 임계값 비교부(170)에서 비교된 결과를 통해 추출된 청각적 샷 특징들이 특징 임계값들보다 크지 않은 것으로 판단되면, 광고 후보 세그먼트를 광고 세그먼트가 아닌 것으로 결정하고, 결정된 결과를 출력단자 OUT9를 통해 출력한다. 이 때, 광고 구간 결정부(172)는 광고 구간이 없는 것으로 결정한다(제194 단계).

도 17은 도 1에 도시된 광고 세그먼트 확정부(16)의 본 발명에 다른 실시예(16B)의 블럭도로서, 임계값 비교부(200), 자막 검사부(202) 및 광고 구간 결정부(204)로 구성된다.

도 18은 도 2에 도시된 제26 단계의 본 발명에 의한 다른 실시예(26B)를 설명하기 위한 플로우차트로서, 청각적 샷 특징들과 특징 임계값들을 비교한 결과 및 자막의 존재 여부에 따라 광고의 시작과 끝을 결정하는 단계(제220 ~ 제226 단계들)로 이루어진다.

임계값 비교부(200)는 입력단자 IN13을 통해 청각적 샷 특징 추출부(14)로부터 입력한 추출된 청각적 샷 특징들과 특징 임계값들을 비교하고, 비교된 결과를 자막 검사부(202)로 출력한다(제220 단계). 즉, 임계값 비교부(200)는 추출된 청각적 샷 특징들이 특징 임계값들보다 큰가를 판단한다.

임계값 비교부(200)에서 비교된 결과에 응답하여, 자막 검사부(202)는 입력단자 IN14를 통해 광고 후보 세그먼트 검출부(12)로부터 입력한 광고 후보 세그먼트에 자막이 존재하는가를 검사한다(제222 단계). 즉, 자막 검사부(202)는 추출된 청각적 샷 특징들이 특징 임계값들보다 큰 것으로 판단되면, 광고 후보 세그먼트에 자막이 존재하는가를 판단한다.

광고 구간 결정부(204)는 자막 검사부(202)에서 검사된 결과에 응답하여, 입력단자 IN14를 통해 입력한 광고 후보 세그먼트를 광고 세그먼트로서 결정하고, 광고 후보 세그먼트의 시작(프레임)을 광고의 시작으로 결정하고, 자막 검사부(202)에서 자막의 존재 여부를 검사하기 위해 검출된 자막의 끝을 광고의 끝으로서 결정하며, 결정된 결과를 출력단자 OUT10을 통해 출력한다(제224 단계).

즉, 광고 구간 결정부(204)는 자막 검사부(202)에서 검사된 결과를 통해 광고 후보 세그먼트에 자막이 존재하는 것으로 판단되면, 광고 후보 세그먼트를 광고 세그먼트로서 결정하고, 광고 후보 세그먼트의 시작을 광고의 시작으로 결정하고, 자막 검사부(202)에서 검출된 자막의 끝을 광고의 끝으로서 결정하고, 결정된 결과를 출력단자 OUT10을 통해 출력한다. 그러나, 광고 구간 결정부(204)는 자막 검사부(202)에서 검사된 결과를 통해 광고 후보 세그먼트에 자막이 존재하지 않은 것으로 판단되면, 광고 후보 세그먼트를 광고 세그먼트가 아닌 것으로 결정하고, 결정된 결과를 출력단자 OUT10을 통해 출력한다. 이 때, 광고 구간 결정부(204)는 광고 구간이 없는 것으로 결정한다(제226 단계).

전술한 도 15 또는 17에 도시된 임계값 비교부(170 또는 200)는 추출된 청각적 샷 특징들(ACCR, MCR 및 MDS)과 특징 임계값들(T_ACCR, T_MCR 및 T_MDS)을 각각 비교한다. 추출된 청각적 샷 특징(ACCR)이 특징 임계값(T_ACCR)보다 크고, 추출된 청각적 샷 특징(MCR)이 특징 임계값(T_MCR)보다 크고, 추출된 청각적 샷 특징(MDS)이 특징 임계값(T_MDS)보다 클 경우, 청각적 샷 특징들이 특징 임계값들보다 큰 것으로 판단된다.

한편, 광고 세그먼트 확정부(16A) 및 제26A 단계는 광고가 자막을 갖지 않을 때 이용되고, 광고 세그먼트 확정부(16B) 및 제26B 단계는 광고가 자막을 가질 때 이용되는 실시예들이다.

이하, 전술한 본 발명에 의한 동영상의 광고 검출 장치의 적용례의 구성 및 동작을 첨부한 도면들을 참조하여 다음과 같이 설명한다.

도 19는 본 발명에 의한 동영상의 광고 검출 장치가 적용되는 장치의 일 실시예의 블럭도로서, EPG 해석부(300), 튜너(tuner)(302), 멀티플렉서(MUX)(304), 비디오 디코더(306), 오디오 디코더(308), 세그먼트 생성부(310), 요약 버퍼(312), 스피커(313), 디스플레이부(314), 광고부(316), 요약부(318), 메타 데이타 생성부(320) 및 저장부(322)로 구성된다.

도 19에 도시된 세그먼트 생성부(210)는 도 1에 도시된 세그먼트 생성부(10)에 해당하므로, 이에 대한 상세한 설명은 생략한다. 여기서, 광고부(316)는 도 1에 도시된 광고 후보 세그먼트 검출부(12), 청각적 샷 특징 추출부(14) 및 광고 세그 먼트 확정부(16)로 구현될 수도 있고, 광고 후보 세그먼트 검출부(12)만으로 구현될 수도 있다.

도 19를 참조하면, EPG 해석부(300)는 입력단자 IN15를 통해 입력한 EPG 신호로부터 EPG 정보를 추출하여 분석하고, 분석한 결과를 세그먼트 생성부(310) 및 광고부(316)의 청각적 샷 특징 추출부(14)로 각각 출력한다. 여기서, EPG 신호는 웹(web)을 통해 별도로 제공될 수도 있고, 텔레비젼 방송 신호에 포함될 수도 있다. 이 경우, 세그먼트 생성부(310)에 입력되는 동영상의 시각적 성분은 EPG 정보를 포함하고, 광고부(316)의 청각적 샷 특징 추출부(14)에 입력되는 동영상의 청각적 성분은 EPG 정보를 포함한다. 이 때, 튜너(302)는 입력단자 IN16을 통해 텔레비젼 방송 신호를 입력하여 튜닝하고, 튜닝된 결과를 MUX(304)로 출력한다. MUX(304)는 튜닝된 결과에서 비디오 성분을 비디오 디코더(306)로 출력하고 오디오 성분을 오디오 디코더(308)로 각각 출력한다.

이 때, 비디오 디코더(306)는 MUX(304)로부터 입력한 비디오 성분을 디코딩하고, 디코딩된 결과를 동영상의 시각적 성분으로서 세그먼트 생성부(310)로 출력한다. 이와 비슷하게, 오디오 디코더(308)는 MUX(304)로부터 입력한 오디오 성분을 디코딩하고, 디코딩된 결과를 동영상의 청각적 성분으로서 광고부(316)의 청각적 샷 특징 추출부(14) 및 스피커(313)로 출력한다.

결국, 동영상의 시각적 성분은 텔레비젼 방송 신호에 포함된 시각적 성분과 EPG 정보를 모두 포함하고, 동영상의 청각적 성분은 텔레비젼 방송 신호에 포함된 청각적 성분과 EPG 정보를 모두 포함할 수 있다.

한편, 광고부(316)가 광고 후보 세그먼트 검출부(12)만으로 구현될 경우, 요약부(318)는 세그먼트 생성부(310)에서 생성한 세그먼트들로부터 광고부(316)의 광고 후보 세그먼트 검출부(12)로부터 입력한 광고 후보 세그먼트를 제거하고, 그 결과를 동영상이 요약된 결과로서 메타 데이타 생성부(320)로 출력한다. 또는, 광고부(316)가 광고 후보 세그먼트 검출부(12), 청각적 샷 특징 추출부(14) 및 광고 세그먼트 확정부(16)로 구현될 경우, 요약부(318)는 세그먼트 생성부(310)에서 생성한 세그먼트들로부터 광고부(316)의 광고 세그먼트 확정부(16)로부터 입력한 광고 세그먼트를 제거하고, 그 결과를 동영상이 요약된 결과로서 메타 데이타 생성부(320)로 출력한다. 메타 데이타 생성부(320)는 요약부(318)로부터 동영상을 요약한 결과를 입력하고, 입력한 동영상을 요약한 결과의 메타 데이타 즉, 속성 데이타를 생성하며, 생성된 메타 데이타를 동영상을 요약한 결과와 함께 저장부(322)로 출력한다. 이 때, 저장부(322)는 메타 데이타 생성부(320)에서 생성된 메타 데이타를 요약한 결과와 함께 저장하고, 저장된 결과를 출력단자 OUT11을 통해 출력한다.

요약 버퍼(312)는 세그먼트 생성부(310)로부터 입력한 세그먼트를 버퍼링하고, 버퍼링된 결과를 디스플레이부(314)로 출력한다. 이를 위해, 세그먼트 생성부(310)는 새로운 세그먼트가 생성될 때마다 새로운 세그먼트보다 이전에 생성된 세그먼트를 요약 버퍼(312)로 출력한다. 디스플레이부(314)는 요약 버퍼(312)로부터 입력한 버퍼링된 결과를 디스플레이한다.

도 20은 본 발명에 의한 동영상의 광고 검출 장치가 적용되는 장치의 다른 실시예의 블럭도로서, EPG 해석부(400), 제1 및 제2 튜너들(402 및 404), 제1 및 제2 MUX들(406 및 408), 제1 및 제2 비디오 디코더들(410 및 412), 제1 및 제2 오디오 디코더들(414 및 416), 세그먼트 생성부(418), 요약 버퍼(420), 디스플레이부(422), 스피커(423), 광고부(424), 요약부(426), 메타 데이타 생성부(428) 및 저장부(430)로 구성된다.

도 20에 도시된 EPG 해석부(400), 세그먼트 생성부(418), 요약 버퍼(420), 디스플레이부(422), 스피커(423), 광고부(424), 요약부(426), 메타 데이타 생성부(428) 및 저장부(430)는 도 19에 도시된 EPG 해석부(300), 세그먼트 생성부(310), 요약 버퍼(312), 디스플레이부(314), 스피커(313), 광고부(316), 요약부(318), 메타 데이타 생성부(320) 및 저장부(322)와 동일한 기능을 수행하고, 제1 및 제2 튜너들(402 및 404) 각각은 튜너(302)와 동일한 기능을 수행하고, 제1 및 제2 MUX들(406 및 408) 각각은 MUX(304)와 동일한 기능을 수행하고, 제1 및 제2 비디오 디코더들(410 및 412) 각각은 비디오 디코더(306)와 동일한 기능을 수행하고, 제1 및 제2 오디오 디코더들(414 및 416) 각각은 오디오 디코더(308)와 동일한 기능을 수행하므로, 이들에 대한 상세한 설명은 생략한다.

도 19에 도시된 장치와 달리 도 20에 도시된 장치는 두 개의 텔레비젼 방송 수신 경로들을 마련하고 있다. 이 중 하나의 수신 경로는 제2 튜너(404), 제2 MUX(408), 제2 비디오 디코더(412) 및 오디오 디코더(416)로 이루어져 있으며, 디스플레이부(422) 및 스피커(423)를 통해 사용자로 하여금 텔레비젼 방송을 시청하도록 한다. 다른 하나의 수신 경로는 제1 튜너(402), 제1 MUX(406), 제1 비디오 디코더(410) 및 오디오 디코더(414)로 이루어져 있으며, 동영상을 요약하여 저장하도 록 한다.

도 21 ~ 도 23들은 본 발명에 의한 동영상의 광고 검출 장치 및 방법의 성능을 보여주는 테이블들로서, 도 21은 컨텐츠의 내용이 광고와 뉴스일 때의 성능을 나타내고, 도 22는 컨텐츠의 내용이 영화, 광고, 시트콤 및 드라마일 때의 성능을 나타내고, 도 23은 컨텐츠의 내용이 쇼, 광고, 시트콤, 뉴스 및 드라마일 때의 성능을 나타낸다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 읽을 수 있는 코드/명령들(instructions)/프로그램으로 구현될 수 있고, 매체, 예를 들면 컴퓨터로 읽을 수 있는 기록 매체를 이용하여 상기 코드/명령들/프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는 마그네틱 저장 매체(예를 들어, 롬, 플로피 디스크, 하드디스크, 마그네틱 테이프 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장 매체를 포함한다. 또한, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 코드를 내장하는 매체(들)로서 구현되어, 네트워크를 통해 연결된 다수개의 컴퓨터 시스템들이 분배되어 처리 동작하도록 할 수 있다. 본 발명을 실현하는 기능적인 프로그램들, 코드들 및 코드 세그먼트(segment)들은 본 발명이 속하는 기술 분야의 프로그래머들에 의해 쉽게 추론될 수 있다.

이상에서 설명한 바와 같이, 본 발명에 의한 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체는 동영상에서 시각적 성분 뿐만 아니라 청각적 정보와 자막 정보를 이용하여 광고 세그먼트를 검색하기 때문에, 블랙 프레임이 존재하지 않은 다양한 형식의 텔레비젼 동영상에서도 광고 구간을 정확하게 검출할 수 있고, 샷들의 컬러 유사성에 의해 세그먼트를 생성하므로서 높은 컷 율의 정의를 쉽게 할 수 있는 즉, 컷 율이 높은 것이 광고가 될 확률을 높여주고, 검출된 동영상의 광고를 동영상으로부터 제거하도록 하여 동영상의 요약 성능을 향상 즉, 내용 기반으로 동영상을 인덱싱 및 검색시킬 수 있도록 할 뿐만 아니라 검출된 동영상의 광고를 사용자가 시청하기를 원하지 않을 때 광고를 스킵할 수 있도록 하고 컨텐츠 제공자용 저작 도구등에서 텔레비젼 방송의 광고를 제거할 수 있도록 하는 효과를 갖는다.

Claims

동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 출력하는 세그먼트 생성부; 및

상기 세그먼트에서 샷의 변화율을 이용하여 광고 후보 세그먼트를 검출하는 광고 후보 세그먼트 검출부를 구비하고,

상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 광고 후보 세그먼트란 광고 세그먼트의 후보가 되는 세그먼트를 의미하고, 상기 광고 세그먼트란 광고를 내용으로서 갖는 세그먼트를 의미하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제1 항에 있어서, 상기 세그먼트 생성부는

상기 시각적 성분으로부터 상기 시각적 이벤트의 성분을 검출하는 시각적 이벤트 검출부;

상기 시각적 성분에서 장면이 전환되는 부분을 검출하고, 검출된 결과를 이용하여 동일 장면 구간인 상기 샷의 시간 정보와 컬러 정보를 생성하는 장면 전환 검출부; 및

상기 장면 전환 검출부로부터 입력한 샷들의 컬러 정보들을 이용하여, 상기 샷들의 유사성을 분석하고, 분석한 유사성과 상기 시각적 이벤트 성분에 의해 상기 샷들을 병합하거나 분할하는 시각적 샷 병합/분할부를 구비하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제2 항에 있어서, 상기 시각적 이벤트 검출부는

상기 시각적 성분으로부터 페이드 효과의 중심에 위치한 단일 색의 프레임을 검출하고, 검출한 상기 단일 색의 프레임을 상기 시각적 이벤트의 성분으로서 출력하고,

상기 시각적 이벤트는 상기 페이드 효과에 해당하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제2 항에 있어서, 상기 시각적 이벤트는 페이드 효과, 디졸브 효과 또는 와이프 효과인 것을 특징으로 하는 동영상의 광고 검출 장치.
제2 항에 있어서, 상기 시각적 샷 병합/분할부는

상기 장면 전환 검출부로부터 입력한 샷들의 상기 컬러 정보들을 저장하는 버퍼;

상기 저장된 컬러 정보들중 탐색 윈도우에 속하는 제1 소정수의 컬러 정보들을 독출하고, 독출한 컬러 정보들을 이용하여 상기 샷들의 컬러 유사성을 산출하는 유사성 산출부; 및

상기 컬러 유사성과 유사성 임계값을 비교하고, 상기 비교된 결과에 응답하 여 상기 비교된 두 샷들을 병합하는 병합부를 구비하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제5 항에 있어서, 상기 시각적 샷 병합/분할부는

상기 병합부에서 병합된 결과가 상기 시각적 이벤트 성분을 가질 경우, 상기 병합된 결과를 상기 시각적 이벤트 성분을 기준으로 분할하는 분할부를 더 구비하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제5 항에 있어서, 상기 유사성 산출부는 아래와 같이 상기 컬러 유사성을 산출하는 것을 특징으로 하는 동영상의 광고 검출 장치.

[여기서, Sim(H₁, H₂)는 두 샷들의 컬러 유사성을 나타내고, H₁(n) 및 H₂(n)는 두 샷들의 컬러 히스토그램들을 각각 나타내고, N은 히스토그램의 레벨을 나타내고, min(x,y)는 x와 y중 최소값을 나타낸다.]
제5 항에 있어서, 상기 탐색 윈도우의 크기인 상기 제1 소정수는 EPG 정보에 따라 달리 결정되는 것을 특징으로 하는 동영상의 광고 검출 장치.
제2 항에 있어서, 상기 광고 후보 세그먼트 검출부는

상기 세그먼트 생성부로부터 입력한 상기 세그먼트내에서 상기 샷의 변화율을 상기 장면 전환 검출부에서 검출된 상기 장면이 전환되는 부분을 이용하여 산출하는 변화율 산출부;

상기 샷의 변화율과 변화율 임계값을 비교하는 변화율 비교부; 및

상기 비교부에서 비교된 결과에 응답하여, 상기 변화율 산출부로 입력된 상기 세그먼트를 상기 광고 후보 세그먼트로서 출력하는 광고 후보 세그먼트 출력부를 구비하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제9 항에 있어서, 상기 변화율 산출부는 아래와 같이 상기 샷의 변화율을 산출하는 것을 특징으로 하는 동영상의 광고 검출 장치.

(여기서, SCR은 상기 샷의 변화율을 나타내고, S는 상기 세그먼트 생성부로부터 입력한 상기 세그먼트에 포함되는 샷의 개수를 나타내고, N#은 상기 세그먼트 생성부로부터 입력한 상기 세그먼트에 포함되는 프레임의 개수를 각각 나타낸다.)
제9 항에 있어서, 상기 광고 후보 세그먼트 출력부는

상기 광고 후보 세그먼트들을 병합하거나 확장하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제11 항에 있어서, 상기 광고 후보 세그먼트 출력부는

연속하는 상기 광고 후보 세그먼트들을 병합하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제11 항에 있어서, 상기 광고 후보 세그먼트 출력부는

상기 광고 후보 세그먼트들 사이에 광고 비 후보 세그먼트가 존재할 때, 상기 광고 비후보 세그먼트가 상기 광고 후보 세그먼트인 것으로 간주하여, 상기 광고 후보 세그먼트의 영역을 확장시키고,

상기 광고 비 후보 세그먼트란 상기 광고 세그먼트의 후보가 아닌 세그먼트를 의미하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제1 항에 있어서, 상기 동영상의 광고 검출 장치는

상기 동영상의 청각적 성분으로부터 검출한 청각적 이벤트의 성분과 상기 세그먼트 생성부에서 생성된 상기 세그먼트를 이용하여 청각적 샷 특징들을 추출하는 청각적 샷 특징 추출부; 및

상기 추출된 청각적 샷 특징들을 이용하여, 상기 광고 후보 세그먼트를 상기 광고 세그먼트로서 확정하는 광고 세그먼트 확정부를 더 구비하고,

상기 청각적 이벤트란 상기 청각적 성분을 구분짖는 소리의 종류를 의미하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제14 항에 있어서, 상기 청각적 샷 특징 추출부는

상기 청각적 성분으로부터 오디오 피쳐들을 프레임 단위로 추출하고, 제2 소정수의 프레임들에 대한 상기 오디오 피쳐들의 평균 및 표준편차를 오디오 특징값으로서 출력하는 오디오 특징값 생성부;

상기 오디오 특징값을 이용하여 상기 청각적 이벤트의 성분을 검출하는 청각적 이벤트 검출부; 및

상기 검출한 청각적 이벤트의 성분과 상기 세그먼트 생성부에서 생성된 상기 세그먼트를 이용하여 상기 청각적 샷 특징들을 추출하는 특징 추출부를 구비하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제15 항에 있어서. 상기 오디오 특징값 생성부는

상기 동영상의 청각적 성분을 소정 시간의 프레임 단위로 분할하는 프레임 단위 분할부;

상기 분할된 프레임 단위들 각각의 오디오 피쳐들을 추출하는 피쳐 추출부; 및

상기 피쳐 추출부에서 제2 소정수의 프레임들에 대해 추출한 제2 소정수의 오디오 피쳐들의 평균과 표준 편차를 산출하고, 산출한 평균과 표준 편차를 상기 오디오 특징값으로서 출력하는 평균/표준편차 산출부를 구비하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제15 항에 있어서, 상기 오디오 피쳐는 Mel-Frequency Cepstral Coefficient(MFCC), Spectral Flux, Centroid, Rolloff, ZCR, Energy 또는 Picth 정보인 것을 특징으로 하는 동영상의 광고 검출 장치.
제15 항에 있어서, 상기 청각적 이벤트의 성분은 음악, 음성, 주변 소리 및 묵음중 적어도 하나인 것을 특징으로 하는 동영상의 광고 검출 장치.
제15 항에 있어서, 상기 특징 추출부는

상기 세그먼트 생성부로부터 입력한 상기 세그먼트의 단위로, 상기 청각적 이벤트의 성분의 변화율, 상기 청각적 이벤트의 성분들중 음악이 차지하는 비율 및 동일한 상기 청각적 이벤트의 성분들로 구성된 시퀀스의 최대 지속 시간중 적어도 하나를 상기 청각적 샷 특징들로서 출력하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제19 항에 있어서, 상기 청각적 이벤트의 성분의 변화율, 상기 청각적 이벤트의 성분들중 음악이 차지하는 비율 및 동일한 상기 청각적 이벤트의 성분들로 구성된 시퀀스의 최대 지속 시간은 아래와 같이 산출되는 것을 특징으로 하는 동영상의 광고 검출 장치.

(여기서, ACCR은 상기 청각적 이벤트의 성분의 변화율을 나타내고, J는 상기 세그먼트 생성부에서 생성된 상기 세그먼트에 포함되는 오디오 클립의 개수를 나타내고, 상기 클립이란 상기 청각적 성분을 분류하는 최소 단위이고, C(j)은 j번째 오디오 클립의 청각적 이벤트의 성분들의 종류를 나타내고, C(j)≠C(j-1)인 경우 H[C(j),C(j-1)]는 '1'이고, C(j)=C(j-1)인 경우 H[C(j),C(j-1)]는 '0'이 된다.)

(여기서, MCR은 상기 음악이 차지하는 비율을 나타내고, M은 상기 세그먼트 생성부에서 생성된 상기 세그먼트에 포함되는 동일한 청각적 이벤트의 성분들로 구성된 시퀀스들의 개수를 나타내고, C(j)="Music"인 경우 SM[C(j),"Music"]는 '1'이 되고, C(j)≠"Music"인 경우 SM[C(j),"Music"]은 '0'이 된다.)

(여기서, MDS는 상기 최대 지속 시간을 나타내고, d_s(m)은 m번째 시퀀스의 오디오 클립의 개수를 나타낸다.)
제14 항에 있어서, 상기 광고 세그먼트 확정부는

상기 추출된 청각적 샷 특징들과 특징 임계값들을 비교하는 임계값 비교부; 및

상기 임계값 비교부에서 비교된 결과에 응답하여, 상기 광고 후보 세그먼트를 상기 광고 세그먼트로서 확정하고, 상기 광고 세그먼트의 시작과 끝을 상기 광고의 시작과 끝으로서 결정하여 출력하는 광고 구간 결정부를 구비하는 것을 특징으로 하는 동영상의 광고 검출 장치.
제14 항에 있어서, 상기 광고 세그먼트 확정부는

상기 추출된 청각적 샷 특징들과 특징 임계값들을 비교하는 임계값 비교부;

상기 비교된 결과에 응답하여, 상기 광고 후보 세그먼트에 자막이 존재하는가를 검사하는 자막 검사부; 및

상기 자막 검사부에서 검사된 결과에 응답하여, 상기 광고 후보 세그먼트를 상기 광고 세그먼트로서 결정하고, 상기 광고 후보 세그먼트의 시작을 상기 광고의 시작으로 결정하고, 상기 검출된 자막의 끝을 상기 광고의 끝으로서 결정하여 출력하는 광고 구간 결정부를 구비하고,

상기 광고는 상기 자막을 갖는 것을 특징으로 하는 동영상의 광고 검출 장치.
제1 항에 있어서, 상기 세그먼트 생성부에서 생성된 상기 세그먼트들중에서 상기 광고 후보 세그먼트가 제거된 결과는 상기 동영상이 요약된 결과로서 이용되는 것을 특징으로 하는 동영상의 광고 검출 장치.
제14 항에 있어서, 상기 세그먼트 생성부에서 생성된 상기 세그먼트들중에서 상기 광고 세그먼트 확정부에서 확정된 상기 광고 세그먼트가 제거된 결과는 상기 동영상이 요약된 결과로서 이용되는 것을 특징으로 하는 동영상의 광고 검출 장치.
제23 항 또는 제24 항에 있어서, 상기 동영상이 요약된 결과의 메타 데이타가 생성되고, 생성된 메타 데이타는 상기 요약된 결과와 함께 저장되는 것을 특징으로 하는 동영상의 광고 검출 장치.
제1 항에 있어서, 상기 동영상의 시각적 성분은 텔레비젼 방송 신호에 포함된 시각적 성분과 EPG 정보를 모두 포함하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
제14 항에 있어서, 상기 동영상의 청각적 성분은 텔레비젼 방송 신호에 포함된 청각적 성분과 EPG 정보를 모두 포함하는 것을 특징으로 하는 이벤트를 이용한 동영상 요약 장치.
동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 결정하는 단계; 및

상기 세그먼트에서 샷의 변화율을 이용하여 광고 후보 세그먼트를 검출하는 단계를 구비하고,

상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 광고 후보 세그먼트란 광고 세그먼트의 후보가 되는 세그먼트를 의미하고, 상기 광고 세그먼트란 광고를 내용으로서 갖는 세그먼트를 의미하는 것을 특징으로 하는 동영상의 광고 검출 방법.
제28 항에 있어서, 상기 세그먼트를 결정하는 단계는

상기 시각적 성분으로부터 상기 시각적 이벤트의 성분을 검출하는 단계;

상기 시각적 성분에서 장면이 전환되는 부분을 검출하고, 검출된 결과를 이용하여 동일 장면 구간인 상기 샷의 시간 정보와 컬러 정보를 생성하는 단계; 및

상기 샷들의 유사성을 상기 샷들의 컬러 정보들을 이용하여 분석하고, 분석한 유사성과 상기 시각적 이벤트 성분에 의해 상기 샷들을 병합하거나 분할하는 단계를 구비하는 것을 특징으로 하는 동영상의 광고 검출 방법.
제29 항에 있어서, 상기 광고 후보 세그먼트를 검출하는 단계는

상기 결정된 세그먼트내에서 상기 샷의 변화율을 상기 검출된 상기 장면이 전환되는 부분을 이용하여 산출하는 단계;

상기 샷의 변화율이 변화율 임계값 이상인가를 판단하는 단계; 및

상기 샷의 변화율이 상기 변화율 임계값 이상인 것으로 판단되면, 상기 샷의 변화율을 산출할 때 이용된 상기 세그먼트를 상기 광고 후보 세그먼트로서 결정하는 단계를 구비하는 것을 특징으로 하는 동영상의 광고 검출 방법.
제28 항에 있어서, 상기 동영상의 광고 검출 방법은

상기 동영상의 청각적 성분으로부터 검출한 청각적 이벤트의 성분과 상기 결정된 세그먼트를 이용하여 청각적 샷 특징들을 추출하는 단계; 및

상기 추출된 청각적 샷 특징들을 이용하여, 상기 광고 후보 세그먼트가 상기 광고 세그먼트인가의 여부를 확정짓는 단계를 더 구비하고,

상기 청각적 이벤트란 상기 청각적 성분을 구분짖는 소리의 종류를 의미하는 것을 특징으로 하는 동영상의 광고 검출 방법.
제31 항에 있어서, 상기 청각적 샷 특징들을 추출하는 단계는

상기 청각적 성분으로부터 오디오 피쳐들을 프레임 단위로 추출하고, 제2 소정수의 프레임들에 대한 상기 오디오 피쳐들의 평균 및 표준편차를 오디오 특징값으로서 결정하는 단계;

상기 오디오 특징값을 이용하여 상기 청각적 이벤트의 성분을 검출하는 단계; 및

상기 검출한 청각적 이벤트의 성분과 상기 결정된 세그먼트를 이용하여 상기 청각적 샷 특징들을 추출하는 단계를 구비하는 것을 특징으로 하는 동영상의 광고 검출 방법.
제31 항에 있어서, 상기 광고 세그먼트를 확정하는 단계는

상기 추출된 청각적 샷 특징들이 특징 임계값들보다 큰가를 판단하는 단계; 및

상기 추출된 청각적 샷 특징들이 특징 임계값들보다 큰 것으로 판단되면, 상기 광고 후보 세그먼트를 상기 광고 세그먼트로서 결정하고, 상기 광고 후보 세그먼트의 시작과 끝을 상기 광고의 시작과 끝으로서 결정하는 단계를 구비하는 것을 특징으로 하는 동영상의 광고 검출 방법.
제31 항에 있어서, 상기 광고 세그먼트를 확정하는 단계는

상기 추출된 청각적 샷 특징들이 특징 임계값들보다 큰가를 판단하는 단계;

상기 추출된 청각적 샷 특징들이 상기 특징 임계값들보다 큰 것으로 판단되면, 상기 광고 후보 세그먼트에 자막이 존재하는가를 판단하는 단계; 및

상기 광고 후보 세그먼트에 자막이 존재하는 것으로 판단되면, 상기 광고 후보 세그먼트를 상기 광고 세그먼트로서 결정하고, 상기 광고 후보 세그먼트의 시작을 상기 광고의 시작으로 결정하고, 상기 검출된 자막의 끝을 상기 광고의 끝으로서 결정하여 출력하는 단계를 구비하고,

상기 광고는 상기 자막을 갖는 것을 특징으로 하는 동영상의 광고 검출 방법.
동영상의 광고 검출 방법을 수행하는 동영상의 광고 검출 장치를 제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 상기 동영상의 광고 검출 방법은

상기 동영상의 시각적 성분으로부터 검출한 시각적 이벤트의 성분을 고려하면서, 샷들을 병합하거나 분할하고, 병합하거나 분할된 결과를 세그먼트로서 결정하는 단계; 및

상기 세그먼트에서 샷의 변화율을 이용하여 광고 후보 세그먼트를 검출하는 단계를 구비하고,

상기 시각적 이벤트란 상기 동영상에서 내용이 전환되는 부분에 삽입되는 효과를 의미하고, 상기 광고 후보 세그먼트란 광고 세그먼트의 후보가 되는 세그먼트를 의미하고, 상기 광고 세그먼트란 광고를 내용으로서 갖는 세그먼트를 의미하는 것을 특징으로 하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체.
제35 항에 있어서, 상기 동영상의 광고 검출 방법은

상기 동영상의 청각적 성분으로부터 검출한 청각적 이벤트의 성분과 상기 결정된 세그먼트를 이용하여 청각적 샷 특징들을 추출하는 단계; 및

상기 추출된 청각적 샷 특징들을 이용하여, 상기 광고 후보 세그먼트를 상기 광고 세그먼트로서 확정하는 단계를 더 구비하고,

상기 청각적 이벤트란 상기 청각적 성분을 구분짖는 소리의 종류를 의미하는 것을 특징으로 하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체.