KR101435778B1

KR101435778B1 - 비디오 기반 시각적 특징과 다단계 통계적 결합을 이용한 유해 동영상 분류 방법 및 장치

Info

Publication number: KR101435778B1
Application number: KR1020110023486A
Authority: KR
Inventors: 최병철; 한승완; 임재덕
Original assignee: 한국전자통신연구원
Priority date: 2011-03-16
Filing date: 2011-03-16
Publication date: 2014-08-29
Also published as: KR20120105821A; US20120237126A1

Abstract

비디오 특징기반의 동영상 특성 판별 장치가 개시된다. 본 발명에 따른 동영상 특성 판별 장치는, 동영상을 복수의 비디오 클립과 상기 각각의 비디오 클립에 대한 복수의 비디오 세그먼트로 구분하는 단계, 각 세그먼트에서 복수의 비디오 특징을 추출하는 단계, 복수의 비디오 특징 각각에 대하여, 각 특징에 기초한 분류기를 이용하여 미리 정해진 각각의 기준에 따라 의도하는 특성의 존재/부재로 분류하고, 이에 따른 판단 결과값을 생성하는 단계, 각 세그먼트 단위로 복수의 비디오 특징 각각에 대한 의도하는 특성의 존재/부재에 대한 판단 결과값들을 통계적으로 결합하여 제1 결합값을 생성하는 단계, 각 비디오 클립 단위로 제1 결합값을 통계적으로 결합하여 제 2 결합값을 생성하는 단계, 제2 결합값 전체를 통계적으로 결합하여 최종 결합값을 생성하는 단계 및 상기 최종 결합값을 이용하여 상기 동영상에 대한 미리 정의된 최종 판단 기준에 따라 최종적으로 의도하는 특성의 존재/부재 여부를 판단하는 단계를 포함하여 구성된다.

Description

비디오 기반 시각적 특징과 다단계 통계적 결합을 이용한 유해 동영상 분류 방법 및 장치{METHOD FOR CLASSIFYING OBJECTIONABLE MOVIES USING VISUAL FEATURES BASED ON VIDEO AND MULTI-LEVEL STATISTICAL COMBINATION AND APPARATUS FOR THE SAME}

본 발명은 동영상의 특성을 판별하는 방법 및 장치에 관한 것으로, 더욱 상세하게는 동영상에서 추출된 비디오 특징을 기반으로 동영상에 의도하는 특성이 존재하는지 여부를 판별하는 방법 및 장치에 관한 것이다.

정보통신의 발달, 특히 인터넷은 언제 어디서나 유용한 정보를 손쉽게 획득할 수 있는 강력한 이점을 주지만, 유용한 정보와 함께 유해한 정보도 손쉽게 획득하고 유포시킬 수 있는 역기능을 갖는다. 특히 호기심이 많고 판단력이 부족한 청소년들이 유해한 정보에 아무런 제재 없이 노출될 수 있어서 개인뿐만이 아니라 사회적인 문제가 되고 있다.

최근에는 스마트폰을 이용한 모바일 인터넷의 활성화로 인하여 유해 동영상의 유포 및 접근이 더욱 쉬워 졌다. 또한 아프리카와 같은 라이브 스트리밍 서비스도 활성화 되고 있어서 청소년들이 유해 동영상에 무방비 상태로 방치되고 있다. 따라서 이러한 유해 동영상을 차단하기 위해서는 무엇보다도 그 유해성을 판단하여 분류하는 기술이 필요하다.

유해 이미지를 분류하는 기술이란 이미지가 입력된 경우 이미지 처리 기술을 이용하여 이미지의 유해성을 판단하고 분류하는 기술이다. 초기에는 내용 기반 이미지 검색기술을 사용하여 유해 이미지를 분류하였으나, 최근에는 유해 이미지에 특화된 특징과 학습기반 판별 기술을 사용하는 방향으로 연구가 진행되고 있다.

이와 관련하여 기존의 MPEG-7 시각적 서술자, 스킨 컬러 판별(Skin Color Detection)방법 등 다양한 유해 이미지 판별 방법이 발표되어 왔지만, 피부색 정보만을 추출하여 유해 이미지를 분류하였기 때문에 분류 성능이 떨어지는 문제점을 갖고 있다. 또한 MPEG-4 비디오에 대한 판별 방법이 제안되기도 하였지만, 이는 코덱 제한성 및 시간적 한계성을 갖는다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 일반적 동영상 및 스트리밍 서비스 콘텐츠에 적용할 수 있는 경량형의 빠르고 정확도 측면에서 강인한 특징 기반의 동영상 특성 판별 방법을 제공하는데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 일반적 동영상 및 스트리밍 서비스 콘텐츠에 적용할 수 있는 경량형의 빠르고 정확도 측면에서 강인한 특징 기반의 동영상 특성 판별 장치를 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명은, 동영상 특성 판별 장치를 이용하여, 동영상에서 전체적인 특징에 기초한 동영상의 특성을 판별하는 방법으로, 동영상을 복수의 비디오 클립과 상기 각각의 비디오 클립에 대한 복수의 비디오 세그먼트로 구분하는 단계, 상기 각 세그먼트에서 복수의 비디오 특징을 추출하는 단계, 상기 복수의 비디오 특징 각각에 대하여, 각각의 특징에 기초한 분류기를 이용하여 미리 정해진 각각의 기준에 따라 의도하는 특성의 존재/부재로 분류하고, 이에 따른 판단 결과값을 생성하는 단계, 각 세그먼트 단위로 상기 복수의 비디오 특징 각각에 대한 의도하는 특성의 존재/부재에 대한 판단 결과값들을 통계적으로 결합하여 제1 결합값을 생성하는 단계, 각 비디오 클립 단위로 상기 제1 결합값을 통계적으로 결합하여 제 2 결합값을 생성하는 단계, 상기 제2 결합값 전체를 통계적으로 결합하여 최종 결합값을 생성하는 단계 및 상기 최종 결합값을 이용하여 상기 동영상에 대한 미리 정의된 최종 판단 기준에 따라 최종적으로 의도하는 특성의 존재/부재 여부를 판단하는 단계를 포함하는 것을 특징으로 하는 동영상의 특성 판별 방법을 제공한다.

여기서, 상기 복수의 비디오 특징은 시간적 모션 에너지 특징(TMEF: Temporal Motion Energy Features), 시간적 컬러 에너지 특징(TCEF: Temporal Color Energy Features) 및 시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)중의 적어도 하나를 조합하여 구성하는 것을 특징으로 한다.

여기서, 상기 시간적 모션 에너지 특징은 상기 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 상기 추출된 각 샘플 프레임의 전경 모션 에너지(FME: Foreground Motion Energy)를 계산하고, 분석함으로써 추출되는 것을 특징으로 한다.

여기서, 상기 시간적 모션 에너지 특징은 상기 추출된 임의의 개수의 샘플 프레임에 대한 전경 모션 에너지의 평균, 분산 및 16개의 DCT(Discrete Cosine Transform) 주파수 성분으로 구성되는 것을 특징으로 한다.

여기서, 상기 시간적 컬러 에너지 특징은 상기 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 상기 추출된 각 샘플 프레임의 스킨 컬러 에너지(SCE: Skin Color Energy)를 계산하고 분석함으로써 추출되는 것을 특징으로 한다.

여기서, 상기 시간적 컬러 에너지 특징은 상기 추출된 임의의 개수의 샘플 프레임에 대한 스킨 컬러 에너지의 평균, 분산 및 16개의 DCT(Discrete Cosine Transform) 주파수 성분으로 구성되는 것을 특징으로 한다.

여기서, 상기 시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)은, 상기 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 상기 추출된 각 샘플 프레임의 HSV(hue saturation value) 컬러 도메인에서 색상 및 채도를 이용한 컬러 히스토그램을 계산하고, 상기 추출된 프레임들에 대하여 상기 계산된 컬러 히스토그램의 각 색상과 채도의 2 차원 빈 단위로 평균을 계산함으로써 추출되는 것을 특징으로 한다.

여기서, 상기 분류기로는 감독형 학습엔진을 이용하는 것을 특징으로 한다.

여기서, 상기 제1결합값은 점 추정 이론 기반의 독립적 비편형 추정기(independent and unbiased estimators)를 이용하여 생성되는 것을 특징으로 한다.

여기서, 상기 제2 결합값 및 제3 결합값은 단순 통계적 결합 규칙을 적용하여 생성되고, 상기 단순 통계적 결합 규칙은 합의 법칙(sum rule), 곱의 법칙(product rule), 최대값 법칙(max rule), 중간값 법칙(median rule), 다수값 원칙(majority vote rule) 중의 적어도 하나를 포함하는 것을 특징으로 한다.

여기서, 상기 동영상에 대하여 최종적으로 의도하는 특성의 존재/부재 여부의 판단을 위해 M of N 판단 비율값 및 판단 임계값을 적용하는 것을 특징으로 한다.

여기서, 상기 의도하는 특성은 유해 동영상의 특성을 포함하는 것을 특징으로 한다.

상기 다른 목적을 달성하기 위한 본 발명은, 동영상을 복수의 비디오 클립과 상기 각각의 비디오 클립에 대한 복수의 비디오 세그먼트로 구분하는 세그먼트 구분부, 상기 각 세그먼트에서 복수의 비디오 특징을 추출하는 비디오 특징 추출부, 상기 복수의 비디오 특징 각각에 대하여, 감독형 학습 엔진 기반의 분류기를 이용하여 미리 정해진 각각의 기준에 따라 의도하는 특성의 존재/부재 여부를 판단하고 판단 결과값을 생성하는 비디오 특성 존재/부재 판단부, 각 세그먼트 단위로 상기 복수의 비디오 특징 각각에 대한 의도하는 특성의 존재/부재 여부 판단 결과값들을 통계적으로 결합하여 제1 결합값을 생성하는 제1 통계적 결합부, 각 비디오 클립 단위로 상기 제1 결합값을 통계적으로 결합하여 제 2 결합값을 생성하는 제2 통계적 결합부, 상기 제2 결합값 전체를 통계적으로 결합하여 최종 결합값을 생성하는 제3 통계적 결합부 및 상기 최종 결합값을 이용하여 상기 동영상에 대한 미리 정의된 최종 판단 기준에 따라 최종적으로 의도하는 특성의 존재/부재 여부를 판단하는 동영상 특성 판단부를 포함하는 것을 특징으로 한다.

여기서, 상기 시간적 모션 에너지 특징은, 상기 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 상기 추출된 각 샘플 프레임의 전경 모션 에너지(FME: Foreground Motion Energy)를 계산하고, 상기 임의의 개수의 프레임에 대한 상기 전경 모션 에너지의 평균, 분산 및 주파수 분석을 통해서 추출되고, 상기 시간적 컬러 에너지 특징은, 상기 추출된 각 프레임의 스킨 컬러 에너지(SCE: Skin Color Energy)를 계산하고, 상기 임의의 개수의 샘플 프레임에 대한 상기 스킨 컬러 에너지의 평균, 분산 및 주파수 분석을 통해서 추출되고, 상기 시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)은, 상기 추출된 각 프레임의 HSV(hue saturation value) 컬러 도메인에서 색상 및 채도를 이용한 컬러 히스토그램을 계산하고, 상기 추출된 샘플 프레임들에 대하여 상기 계산된 컬러 히스토그램의 각 색상과 채도의 2 차원 빈 단위로 평균을 계산함으로써 추출되는 것을 특징으로 한다.

여기서, 상기 제2 결합값 및 제3 결합값은 단순 결합 규칙을 적용하여 생성되고, 상기 단순 결합규칙은 합의 법칙(sum rule), 곱의 법칙(product rule), 최대값 법칙(max rule), 중간값 법칙(median rule), 다수값 원칙(majority vote rule) 중의 적어도 하나를 포함하는 것을 특징으로 한다.

여기서, 상기 동영상에 대하여 최종적으로 의도하는 특성의 존재/부재 여부 판단을 위해 M of N 판단 비율값 및 판단 임계값을 적용하는 것을 특징으로 한다.

여기서, 상기 의도하는 특성은 유해 동영상의 특성을 포함하는 것을 특징으로 한다

본 발명에 따른 비디오 특징기반의 동영상 특성 판별 방법 및 장치를 이용할 경우에는 복수의 비디오 특징을 추출하여 의도하는 특성의 존재/부재 여부를 판단하고, 이를 다단계로 통계적으로 결합함으로써, 시간적 및 성능적으로 강인한 동영상 판단 프레임워크를 제공한다. 또한, 일반적 동영상 및 스트리밍 서비스 콘텐츠에 효과적으로 적용할 수 있는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 유해 동영상을 판별하는 과정을 개략적으로 보여주는 시퀀스 차트이다.
도 2는 본 발명의 일 실시예에 따른 유해 동영상 판별과정에서 보여지는 비디오의 개념적 구조를 보여주는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 비디오 특징들의 구성을 개략적으로 보여주는 개념도이다.
도 4a는 본 발명의 일 실시예에 따른 유해 비디오 세그먼트에서 샘플 프레임에 대한 모션 에너지 분포를 보여주는 개념도이다.
도 4b는 본 발명의 일 실시예에 따른 무해 비디오 세그먼트에서 샘플 프레임에 대한 모션 에너지 분포를 보여주는 개념도이다.
도 5a는 본 발명의 일 실시예에 따른 유해 비디오 세그먼트에서 샘플 프레임에 대한 스킨 컬러 에너지 분포를 보여주는 개념도이다.
도 5b는 본 발명의 일 실시예에 따른 무해 비디오 세그먼트에서 샘플 프레임에 대한 스킨 컬러 에너지 분포를 보여주는 개념도이다.
도 6a는 본 발명의 일 실시예에 따른 유해 비디오 세그먼트에서 샘플 프레임에 대한 색상 및 채도 컬러 히스토그램 분포를 보여주는 개념도이다.
도 6b는 본 발명의 일 실시예에 따른 무해 비디오 세그먼트에서 샘플 프레임에 대한 색상 및 채도 컬러 히스토그램 분포를 보여주는 개념도이다.
도 7은 본 발명의 일 실시예에 따른 유해 동영상 판별장치를 개략적으로 보여주는 개념도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명은 동영상이 의도하는 특성을 갖는지 여부를 판별하기 위하여 동영상으로부터 복수의 비디오 특징을 추출하고 이를 기반으로 하는 분류기의 통계적 결합을 이용한다. 비디오 특징은 이미지 특징과 달리 비디오의 장면 또는 샷 단위로 다중 프레임간의 시/공간적 특성을 이용하여 추출되는 것으로, 본 발명에서는 비디오를 세그먼트 단위로 구분하여 각 세그먼트에서 복수의 비디오 특징을 추출한다.

또한 추출된 비디오 특징은 분류기를 통하여 의도하는 특성의 존재/부재 여부를 판단하게 되는데, 분류기란 추출된 비디오 특징을 이용하여 범주간의 특성에 따라 분류 모델을 생성하고, 이에 따라 판단하는 기술을 의미하며, 본 발명에서는 감독형 학습 엔진의 적용을 제안한다.

따라서 본 발명에서는 비디오 특징을 추출하고, 이를 분류기를 사용하여 의도하는 특성의 존재/부재 여부에 따라서 분류한 후, 그 결과값들에 대하여 세그먼트별 결합, 비디오 클립별 결합, 최종 결합이라는 다단계 통계적 결합방법을 적용함으로써, 최종적으로 동영상에 의도된 특성이 있는지 여부를 판별하는 방법 및 장치가 개시된다.

본 발명에서는 본 발명에 따른 비디오 특징기반의 동영상의 특성 판별방법 및 장치에 대한 일 실시예로, 유해 동영상을 판별하는 방법과 장치에 대하여 설명한다. 따라서 본 발명에서 정의하는 유해 동영상이란 법적으로 일정 연령 이하에게 노출을 금지시키도록 분류된 선정적인 동영상을 의미할 수 있다.

다만 본 발명의 일 실시예에 따른 유해 동영상의 판별은 본 발명에 따른 방법과 장치에 대한 이해를 돕기 위한 일 예를 보여주는 것이므로, 본 발명은 본 실시예에 의하여 제한되지 않는다.

본 발명에서 정의하는 비디오는 동영상에서 비디오 성분만을 분리한 것을 의미한다. 또한 비디오 클립은 비디오 트랙에서 일정 단위 예를 들면 90초 단위로 잘려진 부분을 의미할 수 있으며, 세그먼트는, 비디오 클립에서 일정 한 단위, 예를 들어, 30초 단위로 다시 세분화된 것으로 최소 판단 단위를 의미할 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

먼저 본 발명의 일 실시예에 따른 유해 동영상을 판별하는 과정과 판별 과정에서 보여지는 비디오의 개념적 구조에 대하여 개략적으로 설명하고, 유해 동영상을 판별하기 하여 각 단계별로 적용되는 좀 더 세부적인 기술에 대해서 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 유해 동영상을 판별하는 과정을 개략적으로 보여주는 시퀀스 차트이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 유해 동영상을 판별하는 과정의 각 단계는 동영상에서 비디오 클립 및 세그먼트 구분 단계(S110), 세그먼트에서 비디오 특징 추출 단계(S120), 추출된 비디오 특징에 대한 유/무해 판단 단계(S130), 제1 통계적 결합 단계(S140), 제2 통계적 결합 단계(S150), 제3 통계적 결합 단계(S160), 동영상에 대한 최종 유/무해 여부 판단단계(S170)를 포함하여 구성될 수 있다.

도 1을 참조하면 본 발명의 일 실시예에 따른 유해 동영상을 판별하는 과정은 아래와 같이 설명될 수 있다.

동영상에서 비디오 클립 및 세그먼트 구분 단계(S110)는 수집된 동영상에 대한 유/무해 여부를 판별하기 위한 첫 단계로서, 동영상에서 비디오 성분을 추출하여 비디오 클립을 구분하고, 해당 클립들을 세그먼트 단위로 구분하는 단계이다. 본 발명에 따른 동영상의 유/무해 여부를 판단하기 위한 비디오 특징은 본 단계에서 구분된 세그먼트 단위로 추출된다.

세그먼트에서 비디오 특징 추출 단계(S120)는 앞서 구분된 비디오 세그먼트에서 비디오 특징들을 추출한다. 비디오 특징으로는, 예를 들면, 시간적 모션 에너지 특징(TMEF: Temporal Motion Energy Features), 시간적 컬러 에너지 특징(TCEF: Temporal Color Energy Features) 및 시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)이 추출될 수 있을 것이다.

시간적 모션 에너지 특징은 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 각 프레임의 전경 모션 에너지(FME: Foreground Motion Energy)를 계산하고, 분석함으로써 추출될 수 있다.

시간적 컬러 에너지 특징(TCEF: Temporal Color Energy Features)은 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 각 프레임의 스킨 컬러 에너지(SCE: Skin Color Energy)를 계산하고 분석함으로써 추출될 수 있다.

시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)은, 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 각 프레임의 HSV(hue saturation value) 컬러 도메인에서 색상 및 채도를 이용한 컬러 히스토그램을 계산함으로써 추출될 수 있다.

비디오 특징에 대한 유/무해 판단 단계(S130)에서는 분류기를 사용하여 각 세그먼트에서 추출된 비디오 특징 각각에 대하여 유해 또는 무해 여부를 판단하게 된다. 예를 들면, 시각적 특징들의 성능 검증을 위하여 감독형 학습엔진인 SVM(Support Vector Machine)을 적용하여, 각 비디오 특징에 따라서 TEMF 기반 SVM 모델, TCEF 기반 SVM모델, 및 TCHF 기반 SVM 모델과 같은 3가지 분류기를 추정기로 사용하여 유/무해 여부를 판단 할 수 있다. 또한, 각각 다른 성능을 가지고 있으므로 가중치도 각각 다르게 적용될 수 있고, 판단 기준도 다르게 적용될 수 있을 것이다.

예를 들어 시간적 컬러 히스토그램 특징에 대한 유/무해 판단 기준이 확률값(0~1범위) 0.5라고 정의되어 있다면, 시간적 컬러 히스토그램 특징에 대한 유해여부를 판단 결과가 0 ~ 0.5구간이라면 무해, 0.5를 초과한다면 유해라고 판단 할 수 있다. 이는 시간적 컬러 에너지 특징 및 시간적 모션 에너지 특징에도 유/무해 판단기준을 동일하게 하거나 달리하여 같은 방법으로 적용될 수 있다.

상기 비디오 특징을 추출하는 좀 더 상세한 방법 및 감독형 학습엔진SVM을 사용하여 유/무해 여부를 판단한 예에 대해서는 다른 도면을 참조하여 후술하기로 한다.

제1 통계적 결합 단계(S140)에서는 추출된 각 비디오 특징에 대한 유/무해 판단 결과를 통계적으로 결합한다. 즉 추출된 복수의 비디오특징에 대한 유/무해 판단 결과값을 각 세그먼트 별로 통계적으로 결합하여 제1 결합값을 생성하게 되는데, 이때 점 추정 이론 기반의 독립적 비편형 추정기(unbiased and independent estimators)를 적용하여 결합할 수 있다.

제2 통계적 결합 단계(S150)에서는 제1 통계적 결합단계에서 생성된 제1 결합값을 비디오 클립단위로 재 결합하여 제2 결합값을 생성한다. 이는 단순 통계적 결합 방법을 이용하여 수행 될 수 있다.

제3 통계적 결합 단계(S160)에서는 제2 통계적 결합단계에서 생성된 각 비디오 클립별 통계적 결합 결과인 제2 결합값을 이용하여 통계적으로 결합하여 최종 결합값을 생성한다. 이 역시 단순 통계적 결합 방법을 이용하여 수행될 수 있다.

최종 유/무해 여부판단 단계(S170)에서는 제3 통계적 결합결과, 즉 최종 결합값을 이용하여 최종 유/무해 여부를 판단하게 된다. 이때, M of N 유해 판단 비율값, 즉 N개의 클립에서 M개의 유해가 나올 비율값 및 이에 대한 판단 임계값을 이용할 수 있다.

예를 들어 어떤 동영상에 대해서 유해여부를 판단한 결과, 최종적으로 통계적 결합을 수행한 후에100개의 클립 중 40개에 대해서 유해 판단결과가 나온 경우, 판단 임계값을 0.3(30%)으로 설정했다면, 본 동영상은 최종적으로 유해 동영상으로 최종 판단될 것이다.

통계적 결합 방법에 대한 좀 더 상세한 설명은 후술 하기로 한다.

이하 본 발명의 일 실시예에 따른 비디오 세그먼트에서 비디오 특징을 추출하고 이들을 통계적으로 결합하는 과정에서 보여지는 비디오의 개념적 구조에 대하여 도면을 참조하여 좀 더 자세하게 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 유해 동영상 판별과정에서 보여지는 비디오의 개념적 구조를 보여주는 블록도이다.

도 2를 참조하면 본 발명의 실시예에 따른 유해 동영상 판별과정에서 보여지는 비디오의 개념적 구조는 원본 동영상(210), 비디오(220), n개의 비디오 클립들(230), 각 비디오 클립에 대한 복수개의 세그먼트(240), 각 세그먼트에서 추출된 복수개의 비디오 특징들(250), 각 특징에 대한 유/무해 여부 판단결과(260), 세그먼트 별 특징 결합값(제1 결합)(270), 클립별 결합값(제2 결합)(280), 최종 결합값(제3 결합)(290)을 포함하여 구성되는 것을 알 수 있다.

도 2를 참조하면 본 발명의 일 실시예에 따른 유해 동영상 판별과정에서 보여지는 비디오의 개념적 구조는 아래와 같이 설명될 수 있다.

원본 동영상(210)은 유/무해 여부를 판별하기 위하여 입력된 초기 영상으로 비디오 트랙과 오디오 트랙을 포함하고 있다.

비디오(220)는 원본 동영상(210)에서 유/무해 여부를 판별하기 위하여 비디오 성분만을 분리한 것이다.

비디오 클립(230)은, 예를 들어, 비디오 트랙에서 90초 단위로 잘려진 비디오 부분으로 도 3에 도시된 것처럼 하나의 비디오(X)에 n개의 클립(X-X_n)이 포함된다.

세그먼트(240)는, 예를 들어, 비디오 클립에서 30초 단위로 다시 세분화된 것으로 최소 판단 단위이다. 도 3에 도시된 것처럼 하나의 비디오 클립(X₁)이 세 개의 세그먼트(S₁₁-S₁₃))로 나뉘어진다.

복수개의 비디오특징(250)은 앞서 구분된 각 세그먼트로부터 세가지 비디오 특징인 시간적 모션 에너지 특징(TMEF: Temporal Motion Energy Features), 시간적 컬러 에너지 특징(TCEF: Temporal Color Energy Features) 및 시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)를 포함하며, 각 비디오 특징별 유/무해 여부를 판단하기 위한 의사결정 모델(분류기)(260)이 적용된다.

또한 의사결정 모델이 적용된 각 특징들(TMEF, TCEF, TCHF)을 통계적으로 결합한 제1 결합값 C₁(270)이 생성된다. 또한 각 클립별로 제1 결합값 C₁ (270)을 통계적으로 결합하여 제2 결합값 C₂ (280)가 생성되며, 다시 제2 결합값 C₂ 를 통계적으로 결합한 최종 결합값 C₃(290)가 생성된다. 결국, 최종 결합값 C₃(290)를 이용하여 입력된 동영상에 대한 최종적인 유/무해여부를 판단하게 되고, 유/무해 여부를 나타내는 클래스 라벨로서 출력된다.

이하 앞서 설명된 비디오 특징들을 추출하는 보다 자세한 방법에 대하여 도면을 참조하여 살펴보기로 한다.

도 3은 본 발명의 일 실시예에 따른 비디오 특징들의 구성을 개략적으로 보여주는 개념도이다.

도 3을 참조하면 본 발명의 일 실시예에 따른 비디오 특징의 구성은 아래와 같이 설명될 수 있다.

비디오 클립의 각 세그먼트로부터 추출될 수 있는 비디오 특징으로서 시간적 모션 에너지 특징(TMEF)(310), 시간적 컬러 에너지 특징(TCEF)(330) 및 시간적 컬러 히스토그램 특징(TCHF)(350)과 같은 3가지 특징을 추출할 수 있다.

시간적 모션 에너지 특징(TMEF)(310)은 샘플프레임들의 전경 모션 에너지(311)를 이용하여 추출되며, 시간적 컬러 에너지 특징(TCEF)(330)은 샘플 프레임들의 스킨 컬러 에너지(331)로부터 추출되고, 시간적 컬러 히스토그램 특징(TCHF)(350)은 샘플 프레임들의 색상과 채도(H-S) 컬러 히스토그램(351)을 이용하여 추출되는 것을 알 수 있다.

이하 각 비디오 특징들을 추출하는 방법에 대해서 좀 더 자세하게 설명하기로 한다.

1) 시간적 모션 에너지 특징(TMEF)(310) 추출

시간적 모션 에너지 특징(TMEF)(310)을 추출하기 위하여, 비디오 세그먼트에서 n개의 샘플 프레임을 추출하고, 추출된 각 프레임의 전경 모션 에너지(FME: Foreground Motion Energy)를 아래 수학식 1과 같이 계산할 수 있다.

위 식에서

는 각 프레임의 모션 에너지이며, w 와 h 는 프레임의 가로와 세로의 길이이다.

또한 추출된 n개의 프레임에 대한 전경 모션 에너지의 평균, 분산 및 주파수 분석 등을 통해서 총 18개의 TMEF를 추출할 수 있다. 따라서, TMEF (310)는 다음과 같이 n 개 프레임에 대한 전경 모션 에너지의 평균(312) 및 분산(313), 16개의 DCT(Discrete Cosine Transform) 주파수 성분(314)으로 구성될 수 있다.

상기와 같이 추출된 시간적 모션 에너지 특징(TMEF)에 대하여 분류기를 이용하여 유/무해 여부를 판단한 결과가 도 4a 및 4b에 도시되어 있다.

도 4a및 4b는 각각 본 발명의 일 실시예에 따른 유해 및 무해 비디오 세그먼트에서 샘플 프레임에 대한 모션 에너지의 분포를 보여주는 개념도이다.

도 4a 및 4b를 참조하면 그래프의 가로축이 샘플 프레임이고 세로축은 모션 에너지에 대한 100분율 값이다. 유해 비디오의 모션 에너지는 샘플 프레임에 따라서 약 11 ~ 45 % 범위의 분포(410)를 보여주는데 비해서, 무해 비디오의 모션 에너지는 약 1 ~ 73% 의 분포(420)를 보여주고 있다.

이를 통해, 유해 비디오에 비해서 무해 비디오의 모션 에너지의 분산이 매우 높음을 알 수 있다.

2) 시간적 컬러 에너지 특징(TCEF)(330) 추출

시간적 컬러 에너지 특징(TCEF)을 추출하기 위하여, 비디오 세그먼트에서 n개의 샘플 프레임을 추출하여, 추출된 각 프레임의 스킨 컬러 에너지(SCE: Skin Color Energy)를 수학식 2와 같이 계산할 수 있다.

위 식에서

는 각 프레임의 컬러 에너지이며, w 와 h 는 프레임의 가로와 세로의 길이이다.

또한 추출된 n개의 프레임에 대한 스킨 컬러 에너지의 평균, 분산 및 주파수 분석 등을 통해서 총 18개의 TCEF 를 추출한다. 따라서 TCEF 는 다음과 같이 n개 프레임에 대한 스킨컬러 에너지의 평균(332) 및 분산(333), 16개의 DCT 주파수 성분(334)으로 구성된다.

상기와 같이 추출된 시간적 컬러 에너지 특징(TCEF) 대하여 분류기를 이용하여 유/무해 여부를 판단한 결과가 도 5a 및 5b에 도시되어 있다.

도 5a및 5b는 각각 본 발명의 일 실시예에 따른 유해 및 무해 비디오 세그먼트에서 샘플 프레임에 대한 스킨 컬러 에너지의 분포를 보여주는 그래프이다.

도 5a 및 5b를 참조하면 가로축이 샘플 프레임이고 세로축은 스킨 컬러 에너지에 대한 100분율 값이다. 유해 비디오의 스킨 컬러 에너지는 샘플 프레임에 따라서 약 61 ~ 93 % 범위 내에서 일정한 분포(510)를 보여주는데 비해서, 무해 비디오의 스킨 컬러 에너지는 약 0 ~ 33% 범위에서 급격하게 변화되는 분포(520)를 보여주고 있다.

이를 통해, 유해 비디오의 스킨 컬러 에너지는 무해 비디오의 스킨 컬러 에너지보다 매우 높은 평균값과 낮은 분산을 가지고 있음을 알 수 있다.

3) 시간적 컬러 히스토그램 특징(TCHF)(350) 추출

시간적 컬러 히스토그램 특징(TCHF)을 추출하기 위하여, 비디오 세그먼트에서 n개의 샘플 프레임을 추출하여, 추출된 각 프레임의 HSV(Hue Saturation value) 컬러 도메인에서 색상(Hue)과 채도(Saturation) 값을 이용한 컬러 히스토그램(351)을 계산한다. 또한 추출된 n 개의 프레임에 대한 컬러 히스토그램의 각 색상(8 bins)과 채도(8 bins)의 2 차원 빈 단위로 평균을 계산하여 64개의 특징(352)을 추출한다.

본 방법은 아래 수학식 3을 통해서 설명될 수 있다.

위 식에서

는 각 프레임의 정규화된 컬러 히스토그램이며, h _i 와 s _j 는 각각 색상과 채도에 각각의 빈을 의미한다. (여기서, i,j 및 k는 각각 자연수이고, i= 0 ~ 7, j = 0 ~ 7, k= 1 ~ 64)

상기와 같이 추출된 TCHF 특징에 대하여 분류기를 이용하여 유/무해 여부를 판단한 결과가 도 6a 및 6b에 도시되어 있다.

도 6a 및 6b는 각각 본 발명의 일 실시예에 따른 유해 및 무해 비디오 세그먼트에서 샘플 프레임에 대한 색상-채도 컬러 히스토그램의 분포를 보여주는 개념도이다. 도 6a 및 6b를 참조하면 유해 비디오의 히스토그램의 분포(610)가 무해비디오에서의 색상-채도 컬러 히스토그램 분포(620)보다 어둡고 한쪽으로 치우쳐 있어서, 유해 비디오 및 무해 비디오간 히스토그램 분포가 확연히 차이가 나는 것을 알 수 있다.

이하 예시를 통하여 본 발명의 일 실시예에 따른 추출된 비디오 특징들을 이용하여 통계적으로 결합하는 방법에 대하여 좀 더 상세하게 살펴보기로 한다.

1) 제1 통계적 결합

비디오 세그먼트 단위로 추출된 각 비디오 특징들에 대한 유/무해 여부 판단 결과값을 이용하여 통계적으로 결합하기 위해, 점 추정 규칙(the Properties of Point Estimation Theory)기반의 독립적 비편형 추정기(Independent and Unbiased Estimator)를 이용할 수 있다.

예를 들어, 점추정 규칙에 의해 각 분류기가 독립적이고 비편형 특성을 갖는다고 가정하면, 하기 수학식 4와 같이 최적의 분류기 결합규칙을 정의하여 사용할 수 있으며,

의

에 대한 평균 자승 오류(MSE, Mean Square Error)는 하기 수학식 6과 같이 정의 할 수 있다.

위 식에서

는 실제 알지 못하는 값(Unknown Real values)

의 추정치이다. 또한

는 가중치(Weighting Factors), n은 분류기의 개수(또는 추출된 특징의 수), X 는 특징,

는 분류기의 사후 확률을 의미한다.

한편

는 하기 수학식 5와 같이 정의될 수 있다.

위 식에서

은 분류기의 분산을 의미하며, n은 분류기의 개수이고 모든 가중치들의 합은 1이 된다

여기에서

는 추정치와 실제값과의 평균자승 오류이다.

수학식 4, 5, 6을 통해서 알 수 있듯이, 분산

은 각 분류기의 사후확률

의 확률 분포에서 계산되는 값이기 때문에, 분류기의 성능이 좋아질수록 분산은 작다. 즉

의 성능이 좋을수록

는 높은 값을 가지게 된다.

바람직하게는 시각적 특징들의 성능 검증을 위해서 감독형 학습엔진인 SVM(Support Vector Machine)을 사용할 수 있다. TEMF 특징기반 SVM 판단 모델, TCEF 특징 기반 SVM 판단모델 및 TCHF 특징 기반 판단 모델 등의 3가지 분류기를 추정기로 사용하며, 각각 다른 성능을 가지고 있기 때문에 가중치가 다르게 적용된다.

2) 2차 및 3차 통계적 결합

앞의 세그먼트 단위로 추출된 각 비디오 특징의 1차 통계적 결합 결과를 이용한 2차 통계적 결합과 2차 통계적 결합결과를 이용한 3차 통계적 결합을 수행하기 위해, 각각 단순 통계적 결합 규칙(Simple Statistical Combining Rules)을 이용할 수 있다. 본 발명에 따른 실시예에서 사용할 수 있는 단순 결합 규칙은 합의 법칙(sum rule), 곱의 법칙(product rule), 최대값 법칙(max rule), 중간값 법칙(median rule), 다수값 원칙(majority vote rule) 등이 있으며, 각각 아래 수학식 7부터 11과 같이 정의 될 수 있다.

위 식에서y _i 는 비디오 세그먼트 단위의 유/무해 판단 확률 값이고, y+는 유해 확률값이며, y-는 무해 확률값이다. 또한 N은 한 비디오 클립당 세그먼트 개수이다. 한편 위 변수들은 하기 식들에서도 동일한 의미를 갖는다.

여기서 △는 수학식 12와 같이 정의된다.

위 식에서, w 는 유/무해 클래스 라벨, x는 특징값, m은 클래스 개수이다. 예를 들어, 두 개의 클래스 (+1 유해 클래스, -1 무해 클래스)를 사용하는 경우, m은 2가 된다.

이하 본 발명의 일 실시예에 따른 유해 동영상 판별 장치의 구성에 대하여 설명하기로 한다.

도 7은 본 발명의 일 실시예에 따른 유해 동영상 판별장치를 개략적으로 보여주는 개념도이다.

도 7을 참조하면 본 발명의 일 실시예에 따른 유해 동영상 판별 장치는 비디오 클립 및 세그먼트 구분부(710), 비디오 특징 추출부(720), 비디오 특징에 대한 유/무해 판단부(730), 제1 통계적 결합부(740), 제2 통계적 결합부(750), 제3 통계적 결합부(760) 및 동영상 유/무해 판단부(770)을 포함하여 구성될 수 있다

도 7을 참조하면 본 발명의 일 실시예에 따른 유해 동영상 판별장치의 각 구성요소는 아래와 같이 설명될 수 있다.

비디오 세그먼트 구분부(710)는 수집된 동영상에서 비디오 성분을 추출하여 비디오 클립을 구분하고, 해당 클립들을 세그먼트 단위로 구분한다.

비디오 특징 추출부(720)는 앞서 구분된 비디오 세그먼트에서 비디오 특징들을 추출한다. 비디오 특징으로는, 예를 들면, 시간적 모션 에너지 특징(TMEF)(310), 시간적 컬러 에너지 특징(TCEF)(330) 및 시간적 컬러 히스토그램 특징(TCHF)(350)이 추출될 수 있다.

시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)은, 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 각 프레임의 HSV(hue saturation value) 컬러 도메인에서 색상, 채도를 이용한 컬러 히스토그램을 계산함으로써 추출될 수 있다.

비디오 특징에 대한 유/무해 판단부(730)에서는 분류기를 이용하여 각 세그먼트에서 추출된 비디오 특징 각각에 대하여 유해 또는 무해 여부를 판단하게 된다.

제1 통계적 결합부(740)에서는 추출된 각 비디오 특징에 대한 유/무해 판단 결과를 통계적으로 결합한다. 즉 추출된 각 비디오 특징에 대한 유/무해 판단 결과값을 각 세그먼트 별로 통계적으로 결합하여 제1 결합값(270)을 생성하게 되는데, 이때 점 추정 이론 기반의 독립적 비편형 추정기(unbiased and independent estimators)를 이용하여 결합할 수 있다.

제 2통계적 결합부(750)에서는 제1 통계적 결합단계에서 생성된 제1 결합값(270)을 비디오 클립단위로 재 결합하여 제2 결합값(280)을 생성한다. 이는 단순 통계적 결합 방법을 이용하여 수행 될 수 있다.

제 3차 통계적 결합부(760) 제2 통계적 결합단계에서 생성된 각 비디오 클립별 통계적 결합 결과인 제2 결합값(280)을 이용하여 통계적으로 결합하여 최종 결합값(290)을 생성한다. 이 역시 단순 통계적 결합 방법을 이용하여 수행될 수 있다.

동영상 유/무해 판단부(770)에서는 제3통계적 결합부에서 생성한 최종 결합값(290)을 이용하여 최종 유/무해 여부를 판단하게 된다. 이때, M of N 유해 판단 비율값, 즉 N개의 클립에서 M개의 유해가 나올 비율값 및 이에 대한 판단 임계값을 이용할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

동영상 특성 판별 장치를 이용하여, 동영상에서 전체적인 특징에 기초한 동영상의 특성을 판별하는 방법으로,
동영상을 복수의 비디오 클립과 상기 각각의 비디오 클립에 대한 복수의 비디오 세그먼트로 구분하는 단계;
상기 각 세그먼트에서 복수의 비디오 특징을 추출하는 단계;
상기 복수의 비디오 특징 각각에 대하여, 각각의 특징에 기초한 분류기를 이용하여 미리 정해진 각각의 기준에 따라 의도하는 특성의 존재/부재로 분류하고, 이에 따른 판단 결과값을 생성하는 단계;
각 세그먼트 단위로 상기 복수의 비디오 특징 각각에 대한 의도하는 특성의 존재/부재에 대한 판단 결과값들을 통계적으로 결합하여 제1 결합값을 생성하는 단계;
각 비디오 클립 단위로 상기 제1 결합값을 통계적으로 결합하여 제 2 결합값을 생성하는 단계;
상기 제2 결합값 전체를 통계적으로 결합하여 최종 결합값을 생성하는 단계; 및
상기 최종 결합값을 이용하여 상기 동영상에 대한 미리 정의된 최종 판단 기준에 따라 최종적으로 의도하는 특성의 존재/부재 여부를 판단하는 단계를 포함하되,
상기 의도하는 특성은 유해 동영상의 특성인 것을 특징으로 하는 동영상의 특성 판별 방법.
제 1항에 있어서,
상기 복수의 비디오 특징은 시간적 모션 에너지 특징(TMEF: Temporal Motion Energy Features), 시간적 컬러 에너지 특징(TCEF: Temporal Color Energy Features) 및 시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)중의 적어도 하나를 조합하여 구성하는 것을 특징으로 하는 동영상의 특성 판별 방법.
제 2항에 있어서,
상기 시간적 모션 에너지 특징은 상기 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 상기 추출된 각 샘플 프레임의 전경 모션 에너지(FME: Foreground Motion Energy)를 계산하고, 분석함으로써 추출되는 것을 특징으로 하는 동영상의 특성 판별 방법.
제 3항에 있어서,
상기 시간적 모션 에너지 특징은 상기 추출된 임의의 개수의 샘플 프레임에 대한 전경 모션 에너지의 평균, 분산 및 16개의 DCT(Discrete Cosine Transform) 주파수 성분으로 구성되는 것을 특징으로 하는 동영상의 특성 판별 방법.
제 2항에 있어서,
상기 시간적 컬러 에너지 특징은 상기 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 상기 추출된 각 샘플 프레임의 스킨 컬러 에너지(SCE: Skin Color Energy)를 계산하고 분석함으로써 추출되는 것을 특징으로 하는 동영상의 특성 판별 방법.
제 5항에 있어서,
상기 시간적 컬러 에너지 특징은 상기 추출된 임의의 개수의 샘플 프레임에 대한 스킨 컬러 에너지의 평균, 분산 및 16개의 DCT(Discrete Cosine Transform) 주파수 성분으로 구성되는 것을 특징으로 하는 동영상의 특성 판별 방법.
제 2항에 있어서,
상기 시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)은, 상기 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 상기 추출된 각 샘플 프레임의 HSV(hue saturation value) 컬러 도메인에서 색상 및 채도를 이용한 컬러 히스토그램을 계산하고, 상기 추출된 프레임들에 대하여 상기 계산된 컬러 히스토그램의 각 색상과 채도의 2 차원 빈 단위로 평균을 계산함으로써 추출되는 것을 특징으로 하는 동영상의 특성 판별 방법.
제 1항에 있어서,
상기 분류기로는 감독형 학습엔진을 이용하는 것을 특징으로 하는 동영상의 특성 판별 방법.
제 1항에 있어서,
상기 제1결합값은 점 추정 이론 기반의 독립적 비편형 추정기(independent and unbiased estimators)를 이용하여 생성되는 것을 특징으로 하는 동영상의 특성 판별 방법.
제 1항에 있어서,
상기 제2 결합값 및 상기 최종 결합값은 단순 통계적 결합 규칙을 적용하여 생성되고, 상기 단순 통계적 결합 규칙은 합의 법칙(sum rule), 곱의 법칙(product rule), 최대값 법칙(max rule), 중간값 법칙(median rule), 다수값 원칙(majority vote rule) 중의 적어도 하나를 포함하는 것을 특징으로 하는 동영상의 특성 판별 방법.
제 1항에 있어서,
상기 동영상에 대하여 최종적으로 의도하는 특성의 존재/부재 여부의 판단을 위해 M/N 판단 비율값 및 판단 임계값을 적용하는 것을 특징으로 하는 동영상의 특성 판별 방법.
삭제
동영상을 복수의 비디오 클립과 상기 각각의 비디오 클립에 대한 복수의 비디오 세그먼트로 구분하는 세그먼트 구분부;
상기 각 세그먼트에서 복수의 비디오 특징을 추출하는 비디오 특징 추출부;
상기 복수의 비디오 특징 각각에 대하여, 감독형 학습 엔진 기반의 분류기를 이용하여 미리 정해진 각각의 기준에 따라 의도하는 특성의 존재/부재 여부를 판단하고 판단 결과값을 생성하는 비디오 특성 존재/부재 판단부;
각 세그먼트 단위로 상기 복수의 비디오 특징 각각에 대한 의도하는 특성의 존재/부재 여부 판단 결과값들을 통계적으로 결합하여 제1 결합값을 생성하는 제1 통계적 결합부;
각 비디오 클립 단위로 상기 제1 결합값을 통계적으로 결합하여 제 2 결합값을 생성하는 제2 통계적 결합부;
상기 제2 결합값 전체를 통계적으로 결합하여 최종 결합값을 생성하는 제3 통계적 결합부; 및
상기 최종 결합값을 이용하여 상기 동영상에 대한 미리 정의된 최종 판단 기준에 따라 최종적으로 의도하는 특성의 존재/부재 여부를 판단하는 동영상 특성 판단부를 포함하되,
상기 의도하는 특성은 유해 동영상의 특성인 것을 특징으로 하는 동영상의 특성 판별 장치.
제 13항에 있어서,
상기 복수의 비디오 특징은 시간적 모션 에너지 특징(TMEF: Temporal Motion Energy Features), 시간적 컬러 에너지 특징(TCEF: Temporal Color Energy Features) 및 시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)중의 적어도 하나를 조합하여 구성하는 것을 특징으로 하는 동영상의 특성 판별 장치.
제 14항에 있어서,
상기 시간적 모션 에너지 특징은, 상기 비디오 세그먼트에서 임의의 개수의 샘플 프레임을 추출하여, 상기 추출된 각 샘플 프레임의 전경 모션 에너지(FME: Foreground Motion Energy)를 계산하고, 상기 임의의 개수의 프레임에 대한 상기 전경 모션 에너지의 평균, 분산 및 주파수 분석을 통해서 추출되고,
상기 시간적 컬러 에너지 특징은, 상기 추출된 각 프레임의 스킨 컬러 에너지(SCE: Skin Color Energy)를 계산하고, 상기 임의의 개수의 샘플 프레임에 대한 상기 스킨 컬러 에너지의 평균, 분산 및 주파수 분석을 통해서 추출되고,
상기 시간적 컬러 히스토그램 특징(TCHF: Temporal Color Histogram Features)은, 상기 추출된 각 프레임의 HSV(hue saturation value) 컬러 도메인에서 색상 및 채도를 이용한 컬러 히스토그램을 계산하고, 상기 추출된 샘플 프레임들에 대하여 상기 계산된 컬러 히스토그램의 각 색상과 채도의 2 차원 빈 단위로 평균을 계산함으로써 추출되는 것을 특징으로 하는 동영상의 특성 판별 장치.
제 13항에 있어서,
상기 제1결합값은 점 추정 이론 기반의 독립적 비편형 추정기(independent and unbiased estimators)를 이용하여 생성되는 것을 특징으로 하는 동영상의 특성 판별 장치.
제 13항에 있어서,
상기 제2 결합값 및 상기 최종 결합값은 단순 결합 규칙을 적용하여 생성되고, 상기 단순 결합규칙은 합의 법칙(sum rule), 곱의 법칙(product rule), 최대값 법칙(max rule), 중간값 법칙(median rule), 다수값 원칙(majority vote rule) 중의 적어도 하나를 포함하는 것을 특징으로 하는 동영상의 특성 판별 장치.
제 13항에 있어서,
상기 동영상에 대하여 최종적으로 의도하는 특성의 존재/부재 여부 판단을 위해 M/N 판단 비율값 및 판단 임계값을 적용하는 것을 특징으로 하는 동영상의 특성 판별 장치.
삭제