KR20130061058A

KR20130061058A - 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템

Info

Publication number: KR20130061058A
Application number: KR1020120125545A
Authority: KR
Inventors: 설상훈; 조은희; 차승욱
Original assignee: 고려대학교 산학협력단
Priority date: 2011-11-30
Filing date: 2012-11-07
Publication date: 2013-06-10
Also published as: KR101341808B1

Abstract

본 발명은 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템에 관한 것으로, 보다 구체적으로는 영상으로부터 저수준 특징벡터를 이용하여 적어도 하나의 비디오 샷을 검출한 후, 검출된 비디오 샷을 대표하는 키프레임을 검출하는 키프레임검출단계; 검출된 상기 키프레임 내 얼굴을 검출하고, 얼굴이 검출된 키프레임을 군집화하여 등장인물을 검출하는 등장인물검출단계; 등장인물이 검출된 상기 키프레임 내 등장인물의 노출횟수, 상기 얼굴이 검출된 키프레임의 저수준 특징벡터에 기초하여 키프레임간 거리가 기설정된 임계값보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하고, 검출된 키프레임 군집 내 각 키프레임에 대하여 중요도를 연산하는 중요도연산단계; 및 사용자로부터 요청받은 키프레임 수에 따라, 중요도가 높은 순서별로 해당하는 키프레임을 선별하여 추출하는 선별단계;를 포함한다. 이러한 구성에 의해, 본 발명의 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템은 요약하고자 하는 영상 내 등장인물, 키프레임의 샷길이 및 색상정보와 같은 비주얼 특징을 이용하여 상기 영상 내 키프레임에 대한 중요도를 연산한 후, 연산한 중요도에 기초하여 키프레임을 선별함에 따라, 영상을 용이하게 요약할 수 있는 효과가 있다.

Description

영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템{Video summary method and system using visual features in the video}

본 발명은 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템에 관한 것으로, 특히 영상 내 포함된 등장인물, 키프레임의 샷길이 및 색상정보와 같은 비주얼 특징을 이용하여 영상을 효율적으로 요약할 수 있는 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템에 관한 것이다.

최근 들어, 전자, 통신 및 기술이 급속히 발전하고, 카메라 기술의 발전과 스마트 폰의 보급으로 영상 데이터가 급격히 증가함에 따라, 이미지, 동영상 및 음성 데이터와 같이 멀티미디어 데이터로 생성되는 정보의 양이 폭발적으로 증가하였다. 이에 따라, 멀티미디어 데이터를 사용하는 데 있어서 사용자가 원하는 정보를 정확하고 빠르게 추출하는 기술에 대한 요구가 증가하는 추세이다.

특히, 이러한 멀티미디어 데이터는 정지영상, 동영상, 그래픽, 애니메이션, 소리, 음악 및 텍스트 등의 다양한 미디어들로 구성되는데, 상기 멀티미디어 데이터에 포함되는 정보는 기존의 문자 위주의 정보보다 정보량이 매우 방대함에 따라, 기존의 주석만을 이용하여 멀티미디어 데이터에 대한 객관적이고 용이한 검색환경을 제공하는 것이 어려운 문제점이 발생했다.

상술한 바와 같이, 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템에 대한 선행기술을 살펴보면 다음과 같다.

선행기술 1은 한국등록특허 제0792016호(2007.12.28)로서, 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 장치 및 그 방법에 관한 것이다. 이러한 선행기술 1은 청각 정보를 이용한 화자인식으로 주화자를 검출하고, 특정 배우 단위의 요약을 제공하는 화자 인식부와; 시각 정보를 이용한 얼굴영역 검출 및 얼굴 인식을 통하여 특정인물이 등장하는 키 프레임을 검출하는 얼굴 인식부와; 화자 인식부에서의 청각 정보를 이용한 화자 중심의 비디오 요약 결과와 얼굴 인식부에서의 시각 정보를 이용한 얼굴 인식 결과를 이용하여 등장인물 기반 비디오 요약을 수행하는 비디오 요약부;를 포함하여 구성함으로써, 비디오 데이터 요약 방식에서 오디오 및 비디오 정보를 이용하여 등장인물별 비디오 요약을 제공한다.

또한, 선행기술 2는 한국등록특허 제0708337호(2007.4.10)로서, 퍼지 기반 OC-SVM을 이용한 동영상 자동 요약 장치 및 방법에 관한 것이다. 이러한 선행기술 2는 효과적인 비디오 요약 생성을 위해서 인간의 주관적인 판단을 반영하고, 사용자의 환경이나 요구 조건에 맞는 유연한 형태의 비디오 요약 정보를 생성하기 위한 방안을 제시하며, 주어진 비디오에서 중요한 비디오 세그먼트를 추출하고 이로부터 일련의 키 프레임들을 추출함으로써 비디오의 내용을 한눈에 파악하고 원하는 비디오 장면을 곧바로 액세스할 수 있게 한다.

상기와 같은 종래 기술의 문제점을 해결하기 위해, 본 발명은 영상 내 포함된 등장인물, 키프레임의 샷 길이 및 색상정보와 같은 비주얼 특징을 이용하여, 상기 영상의 키프레임에 대한 중요도를 연산한 후, 연산된 중요도에 기초하여 영상 요약을 용이하게 수행할 수 있는 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템을 제공하고자 한다.

위와 같은 과제를 해결하기 위한 본 발명의 한 실시 예에 따른 영상 내 비주얼 특징을 이용한 영상 요약 방법은 영상으로부터 저수준 특징벡터를 이용하여 적어도 하나의 비디오 샷을 검출한 후, 검출된 비디오 샷을 대표하는 키프레임을 검출하는 키프레임검출단계; 검출된 상기 키프레임 내 얼굴을 검출하고, 얼굴이 검출된 키프레임을 군집화하여 등장인물을 검출하는 등장인물검출단계; 등장인물이 검출된 상기 키프레임 내 등장인물의 노출횟수, 상기 얼굴이 검출된 키프레임의 저수준 특징벡터에 기초하여 키프레임간 거리가 기설정된 임계값보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하고, 검출된 키프레임 군집 내 각 키프레임에 대하여 중요도를 연산하는 중요도연산단계; 및 사용자로부터 요청받은 키프레임 수에 따라, 중요도가 높은 순서별로 해당하는 키프레임을 선별하여 추출하는 선별단계;를 포함한다.

보다 바람직하게는 검출된 상기 비디오 샷 내 등장인물이 존재하는지 여부를 확인하고, 검출된 비디오 샷 내 등장인물이 존재하는 경우에 해당하는 비디오 샷을 키프레임으로 검출하거나, 검출된 비디오 샷 내 등장인물이 존재하지 않는 경우에 검출된 비디오 샷의 첫 번째 프레임을 키프레임으로 검출하는 키프레임검출단계를 포함할 수 있다.

특히, 컬러 히스토그램(histogram) 또는 컬러 코렐로그램(correlogram)인 저수준 특징벡터를 포함할 수 있다.

보다 바람직하게는 상기 키프레임으로부터 눈, 코, 입의 에지(edge)부분에 기초하여 얼굴을 검출하는 얼굴검출과정; 및 상기 얼굴이 검출된 키프레임을 색상정보에 따라 군집화하여 상기 키프레임 내 등장인물을 검출하는 등장인물검출과정;을 포함하는 등장인물검출단계를 포함할 수 있다.

보다 바람직하게는 등장인물이 검출된 상기 키프레임 내 등장인물의 노출횟수에 따른 등장인물간 유사도를 연산하고, 연산된 유사도에 따라 두 개의 키프레임 내 등장인물간의 거리를 연산하는 등장인물간거리연산과정; 상기 등장인물에 대한 가중치와, 두 개의 키프레임의 저수준 특징벡터 및 상기 두 개의 키프레임 내 등장인물간의 거리에 기초하여 상기 두 개의 키프레임간의 거리를 연산하는 키프레임간거리연산과정; 상기 두 개의 키프레임간의 거리가 기설정된 임계값 보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하고, 검출된 키프레임 군집 내 키프레임들에 대하여 계층적 트리구조를 형성하는 계층적트리구조형성과정; 및 상기 계층적 트리구조 내 각 키프레임에 대한 중요도를 연산하는 중요도연산과정;을 포함하는 중요도연산단계를 포함할 수 있다.

보다 바람직하게는 세미 하우스도르프 거리 알고리즘(Semi Hausdorff distance algorithm)을 이용하여 두 개의 키프레임간의 거리가 기설정된 임계값보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하는 계층적트리구조형성과정을 포함할 수 있다.

특히, 하나의 상위키프레임과, 상기 상위키프레임에 포함되는 적어도 하나의 하위키프레임 및 상기 하위키프레임에 포함되는 적어도 하나의 최하위키프레임을 갖도록 3레벨(three-level)로 이루어지는 계층적 트리구조를 포함할 수 있다.

특히, 상기 상위키프레임의 샷 길이는 상기 상위키프레임에 포함되는 적어도 하나의 하위키프레임의 샷 길이에 대한 총합일 수 있다.

특히, 상기 계층적 트리구조 내 각 키프레임과 상기 상위키프레임간의 거리와, 상기 각 키프레임의 샷 길이를 곱하여 상기 각 키프레임에 대한 중요도를 연산하는 중요도연산과정을 포함할 수 있다.

위와 같은 과제를 해결하기 위한 본 발명의 한 실시 예에 따른 영상 내 비주얼 특징을 이용한 영상 요약 시스템은 영상으로부터 저수준 특징벡터를 이용하여 적어도 하나의 비디오 샷을 검출한 후, 검출된 비디오 샷을 대표하는 키프레임을 검출하는 키프레임검출부; 검출된 키프레임 내 얼굴을 검출하고, 얼굴이 검출된 키프레임의 군집화하여 등장인물을 검출하는 등장인물검출부; 등장인물이 검출된 상기 키프레임 내 등장인물의 노출횟수 및 얼굴이 검출된 상기 키프레임의 저수준 특징벡터에 기초하여 키프레임간 거리가 기설정된 임계값보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하고, 검출된 키프레임 군집 내 각 키프레임에 대하여 중요도를 연산하는 중요도연산부; 및 사용자로부터 요청받은 키프레임 수만큼 중요도가 높은 순서별로 해당하는 키프레임을 선별하여 추출하는 선별부;를 포함한다.

본 발명의 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템은 요약하고자 하는 영상 내 등장인물, 키프레임의 샷 길이 및 색상정보와 같은 비주얼 특징을 이용하여 상기 영상 내 키프레임에 대한 중요도를 연산한 후, 연산한 중요도에 기초하여 키프레임을 선별하여 요약함에 따라, 영상을 용이하게 요약할 수 있는 효과가 있다.

또한 본 발명의 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템은 영상을 대표하는 적어도 하나의 키프레임에 포함된 색상정보에 따라 상기 키프레임을 군집화하여 서로 유사한 다수의 키프레임을 제거함으로써, 보다 효율적으로 영상을 요약할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시 예에 따른 영상 내 비주얼 특징을 이용한 영상 요약 시스템의 블록도이다.
도 2는 본 발명의 다른 실시 예에 따른 영상 내 비주얼 특징을 이용한 영상 요약 방법의 순서도이다.
도 3은 도 2의 중요도연산단계의 세부과정을 나타낸 순서도이다.
도 4는 영상에 대한 비디오 샷 검출과정을 나타낸 도면이다.
도 5는 등장인물의 검출결과를 나타낸 도면이다.
도 6은 키프레임 내 등장인물의 노출을 나타낸 도면이다.
도 7은 등장인물의 등장빈도와 등장인물에 대한 가중치의 관계를 나타낸 그래프이다.
도 8은 키프레임에 대한 계층적 트리구조를 나타낸 도면이다.
도 9는 본 발명을 이용한 영상 요약결과를 나타낸 도면이다.
도 10은 종래기술과 본 발명을 각각 이용하여 영상 요약결과를 나타낸 도면이다.

이하, 본 발명을 바람직한 실시 예와 첨부한 도면을 참고로 하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시 예에 한정되는 것은 아니다.

이하, 도 1을 참조하여 본 발명의 일 실시 예에 따른 영상 내 비주얼 특징을 이용한 영상 요약 시스템에 대하여 자세히 살펴보도록 한다.

도 1은 본 발명의 일 실시 예에 따른 영상 내 비주얼 특징을 이용한 영상 요약 시스템의 블록도이다.

도 1에 도시된 바와 같이, 본 발명의 영상 내 비주얼 특징을 이용한 영상 요약 시스템(100)은 키프레임검출부(120), 등장인물검출부(140), 중요도연산부(160) 및 선별부(180)를 포함한다.

키프레임검출부(120)는 영상으로부터 저수준 특징벡터를 이용하여 적어도 하나의 비디오 샷을 검출하고, 검출된 비디오 샷을 대표하는 적어도 하나의 키프레임을 검출한다.

등장인물검출부(140)는 검출된 키프레임 내 등장인물의 얼굴을 검출하고, 얼굴이 검출된 키프레임에 대한 군집화를 수행하여 등장인물을 검출한다.

중요도연산부(160)는 상기 얼굴이 검출된 키프레임 내 등장인물의 노출횟수 및 상기 얼굴이 검출된 키프레임의 저수준 특징벡터에 기초하여 키프레임간 거리가 기설정된 임계값보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하고, 검출된 키프레임 군집 내 각 키프레임에 대하여 트리구조를 형성하고, 트리구조로 형성된 각 키프레임에 대하여 중요도를 연산한다.

선별부(180)는 사용자로부터 요청받은 키프레임의 수만큼 중요도가 높은 순서별로 이에 해당하는 키프레임을 선별하여 추출한다.

이하, 도 2를 참조하여 본 발명의 다른 실시 예에 따른 영상 내 비주얼 특징을 이용한 영상 요약 방법에 대하여 자세히 살펴보도록 한다.

도 2는 본 발명의 다른 실시 예에 따른 영상 내 비주얼 특징을 이용한 영상 요약 방법의 순서도이다.

도 2에 도시된 바와 같이, 먼저, 키프레임검출부(120)가 저수준 특징벡터를 이용하여 요약하고자 하는 영상 내 적어도 하나의 비디오 샷을 검출한 후, 검출된 비디오 샷을 대표하는 키프레임을 검출한다(S210). 이때, 상기 키프레임검출부(120)는 컬러 히스토그램(histogram) 또는 컬러 코렐로그램(correlogram)과 같은 저수준 특징벡터를 이용하여 적어도 하나의 비디오 샷을 검출할 수 있다.

이후, 비디오 샷을 검출한 상기 키프레임검출부(120)가 검출한 비디오 샷으로부터 각각의 비디오 샷을 대표하는 키프레임을 검출한다. 예를 들어, 상기 키프레임검출부(120)가 검출한 비디오 샷 내 등장인물이 존재하는지 여부를 먼저 확인하고, 만약 상기 비디오 샷 내 등장인물이 존재하는 경우에는 상기 등장인물이 존재하는 프레임을 상기 비디오 샷의 키프레임으로 검출한다. 하지만 이와 달리, 상기 키프레임검출부(120)가 검출한 비디오 샷 내 등장인물이 존재하지 않는 경우에는 상기 비디오 샷 중 첫 번째 프레임을 해당 비디오 샷을 대표하는 키프레임으로서 검출한다.

이와 같이, 검출된 비디오 샷은 도 4에 도시된 바와 같이, 공통된 특징이 없거나, 상호 연관성이 존재하지 않는 적어도 하나의 비디오 샷을 검출할 수 있다.

따라서, 도 4를 통해 알 수 있는 바와 같이, 검출된 비디오 샷 1 부터 5에는 공통의 등장인물 또는 공통의 배경이 존재하지 않는 것을 알 수 있다.

이후, 등장인물검출부(140)가 검출된 키프레임 내 등장인물의 얼굴을 검출하고, 얼굴이 검출된 키프레임들의 군집화를 수행하여 등장인물을 검출한다(S220). 이러한 등장인물검출부(140)는 앞서 과정 S210을 통해 상기 키프레임검출부(120)가 검출한 키프레임으로부터 상기 키프레임 내 존재하는 등장인물의 이목구비 즉, 눈, 코, 입 부분에 해당하는 에지(edge)부분을 이용하여 얼굴의 존재여부를 검출한다. 이후, 상기 등장인물검출부(140)는 얼굴이 검출된 상기 키프레임을 색상정보에 따라 군집화하여 등장인물을 검출한다. 이러한 군집화 과정은 사람의 얼굴이 검출된 키프레임은 동일한 사람 또는 유사한 색상을 갖는 배경이 반복적으로 나타날 수 있기 때문에, 상기 얼굴이 검출된 키프레임을 색상정보에 따라 군집화하는 경우, 상기 키프레임 내 존재하는 등장인물을 효과적으로 검출할 수 있다.

이처럼, 등장인물이 검출된 키프레임은 도 5와 같이 나타날 수 있다.

도 5는 등장인물의 검출결과를 나타낸 도면이다.

도 5에 도시된 바와 같이, 다수의 키프레임으로부터 눈, 코, 입 부분의 에지부분을 이용하여 얼굴을 검출하고, 얼굴이 검출된 키프레임 중 얼굴 및 배경에 나타난 색상정보에 기초로 하여 등장인물 1 부터 4를 검출할 수 있다.

특히, 각각의 등장인물별로 검출된 키프레임은 모두 유사한 배경에 동일한 등장인물이 존재하는 것을 알 수 있으며, 또한 등장인물 1 부터 4에 각각 해당하는 키프레임은 등장인물별로 서로 다른 배경과 등장인물이 포함되어 있는 것을 알 수 있다.

이후, 중요도연산부(160)가 검출된 키프레임 내 등장인물이 몇 번이나 노출되었는지를 나타내는 등장인물의 노출횟수, 얼굴이 검출된 키프레임 중 저수준 특징벡터에 기초하여 최소거리를 갖는 두 개의 키프레임을 검출하고, 검출된 키프레임에 대한 중요도를 연산한다(S230).

이하, 도 3을 참조하여, 키프레임에 대한 중요도 연산에 대하여 보다 자세히 살펴보도록 한다.

도 3은 도 2의 중요도연산단계의 세부과정을 나타낸 순서도이다.

도 3에 도시된 바와 같이, 중요도연산부(160)가 먼저, 검출된 키프레임에 대하여 상기 키프레임 내 등장인물이 몇 번이나 노출되는지를 확인하기 위해 노출횟수를 연산한다. 이하, 도 6을 참조하여, 키프레임 내 등장인물의 노출횟수 연산과정에 대하여 자세히 살펴보도록 한다.

도 6은 키프레임 내 등장인물의 노출을 나타낸 도면이다.

도 6에 도시된 바와 같이, 키프레임이 1 부터 6까지 검출된 경우, 등장인물 1이 a, 등장인물 2가 b, 등장인물 3이 c를 나타내고, 상기 등장인물 1이 등장하는 키프레임들의 집합을 A, 상기 등장인물 2가 등장하는 키프레임들의 집합을 B, 상기 등장인물 3이 등장하는 키프레임들의 집합을 C라고 가정한다. 이에 더하여, 도 6을 통해 알 수 있듯이, 상기 등장인물 1이 등장하는 키프레임들은 f₂, f₃, f₄, f₅이며, 이러한 키프레임들의 집합이 A라고 표현된다. 마찬가지로, 상기 등장인물 2가 등장하는 키프레임들은 f₁, f₃, f₅이며, 이러한 키프레임들의 집합은 B라고 표현되고, 상기 등장인물 3이 등장하는 키프레임들은 f₄, f₅이며, 이러한 키프레임들의 집합은 C라고 표현된다.

이에 따라, 각각의 등장인물에 대한 노출횟수 중, 집합 A에 해당되는 노출횟수는 n(A)=4이고, 집합 B에 해당되는 노출횟수는 n(B)=3이며, 집합 C에 해당되는 노출횟수는 n(C)=2이고, 등장인물이 노출되지 않은 횟수는 n(O)=1이다. 또한, 키프레임 내 등장인물 1과 2가 동시에 노출된 횟수는 n(A,B)=n(B,A)=2이고, 등장인물 1과 3이 동시에 노출된 횟수는 n(A,C)=n(C,A)=2이며, 등장인물 2와 3이 동시에 노출된 횟수는 n(C,B)=n(B,C)=1 이다.

이후, 중요도연산부(160)가 각각의 등장인물에 대한 노출횟수를 이용하여 각 등장인물 간의 유사도를 하기의 수학식 1을 통해 연산한다.

[수학식 1]

S(A,B)=

S(A,C)=

S(B,C)=

S(A,O)=

따라서, 상기 중요도연산부(160)는 각 등장인물간의 유사도 연산에 따른 연산결과를 하기의 수학식 2에 적용하여 두 개의 키프레임 내 등장인물간의 거리 P(A, B)를 연산한다(S231).

[수학식 2]

P(A,B) = 1 - S(A,B)

이후, 중요도연산부(160)는 하기의 수학식 3과 같이, 등장인물에 대한 가중치 α를 1에서 뺀 값을 두 개의 키프레임간 저수준 특징벡터 C(f_i, f_j)와 곱하고, 상기 등장인물에 대한 가중치 α를 앞서 수학식 2를 통해 연산한 두 개의 키프레임 내 등장인물간 거리 P(f_i, f_j)에 곱한 후 그 값을, 앞서 등장인물에 대한 가중치 α를 1에서 뺀 값을 두 개의 키프레임간 저수준 특징벡터 C(f_i, f_j)와 곱한 값에 더함으로써, 두 개의 키프레임간의 거리 D(f_i, f_j)를 연산한다(S232). 이러한 연산과정은 하기의 수학식 3과 같이 나타낼 수 있다.

[수학식 3]

D(f_i, f_j) = (1-α) × C(f_i, f_j) + α× P(f_i, f_j)

이때, 저수준 특징벡터는 상기 C(f_i, f_j) = correlogram(f_i)- correlogram(f_j)를 통해 연산되는 것으로서, 두 개의 키프레임간의 컬러 코렐로그램의 차를 나타낸다. 또한, 이때 사용되는 상기 등장인물에 대한 가중치 α 는 등장인물의 등장빈도수 FP에 따라 달라지게 된다. 이러한 상기 등장인물의 등장빈도수 FP는 하기의 수학식 4에 나타난 바와 같이, 전체 등장인물의 길이를 영상의 전체 길이로 나눈 후 이를 백분율화시키면, 영상 내 등장인물에 대한 등장빈도수 FP를 연산할 수 있다.

[수학식 4]

이와 같이 연산된 등장인물의 등장빈도수에 따른 등장인물에 대한 가중치 α 는 다음과 같다. 앞서 수학식 4를 통해 연산된 등장인물에 대한 등장빈도수 FP가 50 이상인 경우, 상기 등장인물에 대한 가중치 α 는 0.1이 할당되고, 상기 등장인물에 대한 등장빈도수가 FP가 0.5 이하인 경우, 상기 등장인물에 대한 가중치 α 는 0.8이 할당된다. 또는 상기 등장인물에 대한 등장빈도수 FP가 0.5를 초과하고, 50 미만인 경우에는 연산된 등장인물에 대한 등장빈도수 FP에 0.02를 곱한 값을 1에서 뺀 값이 상기 등장인물에 대한 가중치 α 로서 할당된다.

이러한 상기 등장인물의 등장빈도와 가중치간의 관계를 도 7을 통해 살펴보도록 한다.

도 7은 등장인물의 등장빈도와 등장인물에 대한 가중치의 관계를 나타낸 그래프이다.

도 7에 도시된 바와 같이, 등장인물의 등장빈도 FP에 따른 등장인물에 대한 가중치 α는 등장인물의 등장빈도 FP가 50%일 때 0.1이 되며, 상기 등장인물의 등장빈도 FP가 5%일 때 등장인물에 대한 가중치 α는 0.8이 되는 것을 알 수 있다. 이때, 도 7에 표시된 그래프 중 실선그래프는 실험을 통해 획득한 최적값이고, 점선그래프는 이에 대한 근사값으로 볼 수 있다.

이처럼, 중요도연산부(160)가 앞서 연산된 두 개의 키프레임간의 거리를 키프레임을 변경하며 연속해서 연산함에 따라, 기설정된 임계값보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하는데, 이때, 세미 하우스도르프 거리 알고리즘(Semi Hausdorff distance algorithm)을 이용하여 두 개의 키프레임간 거리를 연산할 수 있다. 특히, 상기 기설정된 임계값은 0.06 또는 0.3이 될 수 있으며, 이러한 임계값은 사용자에 의해 변경이 가능하다.

모든 키프레임은 여러 군집 중 하나의 군집에 포함된다

이후, 상기 중요도연산부(160)는 앞서 검출한 키프레임 군집 내 각 키프레임들에 대하여 계층으로 분리한 후, 트리구조를 형성(S233)하며, 이하 도 8을 참조하여, 키프레임 군집 내 각 키프레임에 대한 계층적 트리구조에 대하여 자세히 살펴보도록 한다.

도 8은 키프레임에 대한 계층적 트리구조를 나타낸 도면이다.

도 8에 도시된 바와 같이, 키프레임에 대한 계층적 트리구조는 하나의 상위키프레임(1)과, 상기 상위키프레임(1)에 포함되는 적어도 하나의 하위키프레임(2, 3, 4) 및 상기 하위키프레임(2, 3, 4)에 각각 포함되는 적어도 하나의 최하위키프레임(5 내지 11)을 갖도록 이루어지는 3 레벨(three-level)로 이루어질 수 있다. 즉, 모든 키프레임에 대하여 계층적 트리구조가 형성되는 것을 알 수 있다.

이때, 상기 하위키프레임(2, 3, 4)의 샷 길이(shot duration)는 상기 하위키프레임(2, 3, 4)에 각각 포함되는 적어도 하나의 최하위키프레임(5 내지 11)의 샷 길이를 모두 합한 값과 동일하다. 뿐만 아니라, 상위키프레임(1)의 샷 길이 또한 상기 상위키프레임(1)에 포함되는 적어도 하나의 하위키프레임(2, 3, 4)의 샷 길이를 모두 합한 값과 동일하도록 이루어진다.

예를 들어, 하위키프레임(2)의 샷 길이는 상기 하위키프레임(2)에 포함되는 최하위키프레임(5)의 샷 길이인 10과, 상기 하위키프레임(2)에 포함되는 다른 최하위키프레임(6)의 샷 길이인 15를 합산한 값인 25임을 알 수 있다. 뿐만 아니라, 상위키프레임(1)의 샷 길이는 상기 상위키프레임(1)에 포함되는 하위키프레임(2)의 샷 길이인 25와, 상기 상위키프레임(1)에 포함되는 다른 하위키프레임(3)의 샷 길이인 30 및 상기 상위키프레임(1)에 포함되는 또 다른 하위키프레임(4)의 샷 길이인 5를 모두 합친 값인 60임을 알 수 있다.

상술한 바와 같이, 키프레임에 대한 계층적 트리구조를 연산한 중요도연산부(160)는 하기의 수학식 5를 이용하여, 상기 계층적 트리구조 내 포함되는 모든 키 프레임에 대하여 앞서 연산한 상위 키프레임과의 거리 D_i 와, 상기 키프레임에 해당하는 샷 길이 W_i 를 곱하여, 키프레임에 대한 중요도 IF_i를 연산한다(S234). 이때, 키프레임 군집 내 각 키프레임은 모두 계층적 트리구조로서 표현될 수 있다.

[수학식 5]

IF_i = (D_i × W_i)

이에 따라, 선별부(180)는 각 키프레임에 해당하는 중요도 IF를 내림차순으로 정렬한 후, 중요도가 높은 순서별로 사용자로부터 요청받은 키프레임 수만큼 키프레임을 선별하여 추출한다(S240).

이하, 본 발명을 적용한 영상 요약 실험에 대하여 살펴보도록 한다.

표 1은 본 실험에 사용된 영상정보를 나타낸다. 하기의 표 1에 기재된 바와 같이, TV예능, 드라마, 다큐멘터리, 뉴스 등 총 4개의 프로그램 장르와, 각 장르별 2개의 영상을 채택하여 영상 요약 실험을 진행하였다. 선택한 영상은 평균 30분 내외의 길이이며, 요약한 결과는 사용자가 원하는 수의 정지영상이 시간차 순으로 정렬되어 스토리보드로 보여진다.

	프로그램 제목	길이	인물의 등장빈도	비트율
TV 예능	나는 남자다	40분	32%	30fps
TV 예능	남자의 자격	40분	35%	30fps
드라마	LOST	30분	55%	30fps
드라마	몽땅 내사랑	35분	60%	30fps
다큐멘터리	세계테마기행_ 유럽의 지붕 알프스	30분	3%	30fps
다큐멘터리	세계테마기행_ 도교의 성지 무당산	30분	5%	30fps
뉴스	MBC 뉴스데스크	40분	25%	30fps
뉴스	CBS 노컷뉴스	20분	28%	30fps

이러한 원본 영상에서 보도된 사건의 수와 요약 결과에 포함된 사건의 수를 비교해 본 결과, 평균 약 90%의 사건 검출 정확도를 나타내는 것을 알 수 있다.

	원본 비디오에 포함된 사건의 수	비디오 요약 결과에 포함된 사건의 수	정확도
뉴스 1 MBC 뉴스데스크	19	18	94%
뉴스 2 MBC 정오뉴스	10	9	90%
뉴스 3 KBS 9뉴스	25	22	88%
뉴스 4 CBS 노컷뉴스	20	18	90%

이에 따라, 도 9(a)에 도시된 바와 같이, 영상을 5개에 대하여 요약한 결과를 나타내는 것을 알 수 있고, 도 9(b)에 도시된 바와 같이, 영상을 15개에 대하여 요약한 결과를 나타내는 것을 알 수 있다.

뿐만 아니라, 본 발명을 적용한 실험 예와, 종래기술을 적용한 실험 예를 상호 비교하여 사용자 만족도를 측정하였다.

	Kim의 알고리즘	Shingo의 알고리즘	Marian의 알고리즘	본 발명
TV 예능	3.5	3.6	4.0	4.5
드라마	3.0	3.9	4.5	4.5
다큐멘터리	3.0	3.0	4.0	4.8
뉴스	3.6	3.6	4.3	4.8

상기 사용자 만족도는 측정하기 위하여, 10명의 사용자에게 원본 영상과 요약된 정지영상의 스토리보드를 제공하고, 각 영상에 대하여 1 부터 5까지의 만족도를 측정하였다. 상기 표 3을 통해 알 수 있는 바와 같이, 본 발명에 따른 영상요약은 본 테스트에서 사용된 종래기술에 비하여 상대적으로 높은 평균 만족도를 갖는 것을 알 수 있다.

또한, 도 10을 통해서도 종래기술과 본 발명간의 영상요약결과의 차이를 확인할 수 있다.

도 10은 종래기술과 본 발명을 각각 이용하여 영상 요약결과를 나타낸 도면이다.

도 10에 도시된 바와 같이, 좌측 영상은 등장인물의 비율이 32%로 인물의 등장빈도가 비교적 높은 TV예능에 관한 영상이고, 우측영상은 등장인물의 비율이 5% 미만으로 인물이 등장빈도가 비교적 낮은 다큐멘터리에 관한 영상이다.

이러한 좌측영상 (a)에 대하여 제1 종래기술인 Marian 방법을 사용하여 요약된 15개의 영상은 모두 인물이 존재하고 있으며, 제2 종래기술인 Shingo 방법을 사용하여 요약한 좌측영상 (b)에 대해서는 조명이 강한 장면과 같이 영상의 내용 파악에 도움이 되지 않는 장면이 선택되는 것을 알 수 있다. 또한 좌측영상 (c)는 영상 내 색상 특징만을 이용하기 때문에 조명으로 인해 색상이 변한 경우에는 인접한 샷이 반복되는 것을 알 수 있다. 하지만, 본 발명을 적용한 좌측영상 (d)는 등장인물과 장면 변환이 확실한 주요 장면만을 적절히 보여줌에 따라, 사용자의 만족도를 향상시킬 수 있다.

또한, 인물의 등장빈도가 5% 미만인 다큐멘터리 영상을 나타내는 우측의 영상은 종래기술을 이용한 (a) 내지 (c) 영상이 유사한 자연환경을 반복하여 나타내는 것과 달리, 본 발명을 이용한 (d) 영상은 등장인물이 존재하는 인터뷰 장면과 그 외의 장면을 적절히 포함시켜 요약함으로써, 인물의 등장빈도가 비교적 낮은 다큐멘터리 영상에 대해서도 효과적인 영상 요약을 통해 사용자 만족도를 향상시키는 것을 알 수 있다.

또한, 이러한 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템은 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체에 저장될 수 있다. 이때, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

본 발명의 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템은 요약하고자 하는 영상 내 등장인물, 키프레임의 샷길이 및 색상정보와 같은 비주얼 특징을 이용하여 상기 영상 내 키프레임에 대한 중요도를 연산한 후, 연산한 중요도에 기초하여 키프레임을 선별하여 요약함에 따라, 영상을 용이하게 요약할 수 있는 효과가 있다.

상기에서는 본 발명의 바람직한 실시 예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 본 발명의 기술 사상 범위 내에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 첨부된 특허청구범위에 속하는 것은 당연하다.

120: 키프레임검출부 140: 등장인물검출부
160: 중요도연산부 180: 선별부

Claims

영상으로부터 저수준 특징벡터를 이용하여 적어도 하나의 비디오 샷을 검출한 후, 검출된 비디오 샷을 대표하는 키프레임을 검출하는 키프레임검출단계;
검출된 상기 키프레임 내 얼굴을 검출하고, 얼굴이 검출된 키프레임을 군집화하여 등장인물을 검출하는 등장인물검출단계;
등장인물이 검출된 상기 키프레임 내 등장인물의 노출횟수, 상기 얼굴이 검출된 키프레임의 저수준 특징벡터에 기초하여 키프레임간 거리가 기설정된 임계값보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하고, 검출된 키프레임 군집 내 각 키프레임에 대하여 중요도를 연산하는 중요도연산단계; 및
사용자로부터 요청받은 키프레임 수에 따라, 중요도가 높은 순서별로 해당하는 키프레임을 선별하여 추출하는 선별단계;
를 포함하는 영상 내 비주얼 특징을 이용한 영상 요약 방법.
제1항에 있어서,
상기 키프레임검출단계는
검출된 상기 비디오 샷 내 등장인물이 존재하는지 여부를 확인하고, 검출된 비디오 샷 내 등장인물이 존재하는 경우에 해당하는 비디오 샷을 키프레임으로 검출하거나, 검출된 비디오 샷 내 등장인물이 존재하지 않는 경우에 검출된 비디오 샷의 첫 번째 프레임을 키프레임으로 검출하는 것을 특징으로 하는 영상 내 비주얼 특징을 이용한 영상 요약 방법.
제1항에 있어서,
상기 저수준 특징벡터는
컬러 히스토그램(histogram) 또는 컬러 코렐로그램(correlogram)인 것을 특징으로 하는 영상 내 비주얼 특징을 이용한 영상 요약 방법.
제1항에 있어서,
상기 등장인물검출단계는
상기 키프레임으로부터 눈, 코, 입의 에지(edge)부분에 기초하여 얼굴을 검출하는 얼굴검출과정; 및
상기 얼굴이 검출된 키프레임을 색상정보에 따라 군집화하여 상기 키프레임 내 등장인물을 검출하는 등장인물검출과정;
을 포함하는 것을 특징으로 하는 영상 내 비주얼 특징을 이용한 영상 요약 방법.
제1항에 있어서,
상기 중요도연산단계는
등장인물이 검출된 상기 키프레임 내 등장인물의 노출횟수에 따른 등장인물간 유사도를 연산하고, 연산된 유사도에 따라 두 개의 키프레임 내 등장인물간의 거리를 연산하는 등장인물간거리연산과정;
상기 등장인물에 대한 가중치와, 두 개의 키프레임의 저수준 특징벡터 및 상기 두 개의 키프레임 내 등장인물간의 거리에 기초하여 상기 두 개의 키프레임간의 거리를 연산하는 키프레임간거리연산과정;
상기 두 개의 키프레임간의 거리가 기설정된 임계값 보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하고, 검출된 키프레임 군집 내 키프레임들에 대하여 계층적 트리구조를 형성하는 계층적트리구조형성과정; 및
상기 계층적 트리구조 내 각 키프레임에 대한 중요도를 연산하는 중요도연산과정;
을 포함하는 것을 특징으로 하는 영상 내 비주얼 특징을 이용한 영상 요약 방법.
제5항에 있어서,
상기 계층적트리구조형성과정은
세미 하우스도르프 거리 알고리즘(Semi Hausdorff distance algorithm)을 이용하여 두 개의 키프레임간의 거리가 기설정된 임계값보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하는 것을 특징으로 하는 영상 내 비주얼 특징을 이용한 영상 요약 방법.
제5항에 있어서,
상기 계층적 트리구조는
하나의 상위키프레임과, 상기 상위키프레임에 포함되는 적어도 하나의 하위키프레임 및 상기 하위키프레임에 포함되는 적어도 하나의 최하위키프레임을 갖도록 3레벨(three-level)로 이루어지는 것을 특징으로 하는 영상 내 비주얼 특징을 이용한 영상 요약 방법.
제7항에 있어서,
상기 상위키프레임의 샷 길이는 상기 상위키프레임에 포함되는 적어도 하나의 하위키프레임의 샷 길이에 대한 총합인 것을 특징으로 하는 영상 내 비주얼 특징을 이용한 영상 요약 방법.
제7항에 있어서,
상기 중요도연산과정은
상기 계층적 트리구조 내 각 키프레임과 상기 상위키프레임간의 거리와, 상기 각 키프레임의 샷 길이를 곱하여 상기 각 키프레임에 대한 중요도를 연산하는 것을 특징으로 하는 영상 내 비주얼 특징을 이용한 영상 요약 방법.
제1항 내지 제9항 중 어느 한 항에 따른 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체.
영상으로부터 저수준 특징벡터를 이용하여 적어도 하나의 비디오 샷을 검출한 후, 검출된 비디오 샷을 대표하는 키프레임을 검출하는 키프레임검출부;
검출된 키프레임 내 얼굴을 검출하고, 얼굴이 검출된 키프레임의 군집화하여 등장인물을 검출하는 등장인물검출부;
등장인물이 검출된 상기 키프레임 내 등장인물의 노출횟수 및 얼굴이 검출된 상기 키프레임의 저수준 특징벡터에 기초하여 키프레임간 거리가 기설정된 임계값보다 작은 거리를 갖는 키프레임들을 포함하는 키프레임 군집을 검출하고, 검출된 키프레임 군집 내 각 키프레임에 대하여 중요도를 연산하는 중요도연산부; 및
사용자로부터 요청받은 키프레임 수만큼 중요도가 높은 순서별로 해당하는 키프레임을 선별하여 추출하는 선별부;
를 포함하는 영상 내 비주얼 특징을 이용한 영상 요약 시스템.