KR100687732B1

KR100687732B1 - 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단방법 및 그 장치

Info

Publication number: KR100687732B1
Application number: KR1020050112966A
Authority: KR
Inventors: 한승완; 이승민; 이호균; 남택용; 노용만; 양승지; 서경석
Original assignee: 한국전자통신연구원; 한국정보통신대학교 산학협력단
Priority date: 2005-11-24
Filing date: 2005-11-24
Publication date: 2007-02-27

Abstract

내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법 및 그 장치는 유해 동영상 분류 모델과 비유해 동영상 분류 모델로 이루어지는 판별모델을 구축하는 단계; 동영상 컨텐츠에서 비디오 스트림과 오디오 스트림으로 분리하는 단계; 상기 분리된 비디오 스트림에 대하여 소정의 비주얼 특징값을 추출하여 샷(shot) 경계를 검출한 후 각 샷에서 적어도 하나 이상의 키 프레임을 추출하고 상기 샷과 키 프레임정보를 생성하는 단계; 상기 비디오 스트림에 대하여 소정의 선처리를 수행한 후 상기 샷과 키 프레임 정보를 기초로 상기 키 프레임의 멀티 모달 특징값을 추출하는 단계; 상기 멀티 모달 특징값을 상기 판별모델에 입력하여 샷의 유해성을 판단하는 단계; 및 상기 샷 기준의 판단 결과를 종합하여 상기 동영상 컨텐츠의 유해성을 판단하는 단계;를 포함하는 것을 특징으로 하며, 키프레임 기반 판단 엔진과 프레임 기반 판단 엔진을 이용한 점진적 차단 방법을 이용하고, 멀티모달(multi-modal) 특징값들을 이용함으로써, 인터넷을 통한 유해 동영상 차단, P2P를 통한 유해 동영상 유통 제어, 디지털 방송 스트림의 실시간 유해 정보 감시 시스템에 적용될 수 있다.

내용 기반 차단, 유해 정보 판별, 멀티 모달 특징

Description

내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법 및 그 장치{Method for filtering malicious video using content-based multi-modal features and apparatus thereof}

도 1은 본 발명에 의한 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법의 과정을 보여주는 흐름도이다.

도 2는 도 1의 판별모델을 구축하는 과정을 보여주는 흐름도이다.

도 3은 도 1의 샷 경계와 키 프레임을 추출한 후 정보를 추출하는 과정(S130)을 보다 상세하게 보여주는 흐름도이다.

도 4는 유해 정보 검출을 위한 두 단계를 도식적으로 나타낸 흐름도이다.

도 5는 도 1의 샷의 유해성을 판단하는 과정(S150)을 보다 상세하게 보여주는 흐름도이다.

도 6은 샷의 변화에 따른 시간축 특징값의 변화를 보여주는 도면이다.

도 7은 각 샷의 유해도 수치값의 시간에 따른 변화를 보여주는 도면이다.

도 8은 본 발명에 의한 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 장치의 구성을 보여주는 블록도이다.

도 9는 도 8의 판별부(860)의 상세 블록도이다.

본 발명은 유해 동영상을 차단하는 방법과 그 장치에 관한 것으로서, 보다 상세하게는 동영상에 대하여 키프레임 기반 판단 엔진과 프레임 기반 판단 엔진을 이용한 점진적 차단 방법을 적용하고, 유해 특징 정보를 동영상으로부터 추출한 내용 기반 비주얼 특징 정보, 오디오 특징 정보, 시간축 특징 정보 등의 멀티모달(multi-modal) 특징값들을 이용하여 유해 동영상을 차단하는 방법 및 그 장치에 관한 것이다.

인터넷 필터링 기술 분야는 최근 인터넷 보급의 확산과 더불어 급성장하고 있는 산업 기술 중 한 분야이다. 인터넷이 보급되고 이용률이 증가함에 따라 기업, 학교 및 가정에서 생산성은 향상되었지만 불건전한 내용 및 비(非)업무 내용이 인터넷 보급의 단점으로 인식되고 있다. 현재 개발된 상품에 적용된 필터링 기술의 대부분은 URL 및 단어들로 이루어진 데이터베이스를 이용한 것이다. 인터넷 유해 정보 필터링 소프트웨어는 몇 가지 상품이 있으나 거의 모든 제품이 블랙 리스트 방식의 URL, IP, 단어 등의 DB 비교 필터링 기술을 이용하고 있다. 이런 방식은 멀티미디어 내용과 같은 가장 유해성이 강한 요소와는 무관한 필터링 기술을 사용하므로 차단 실패율이 27% ~ 45%에 이르고 있다. 이는 블랙 리스트에 없는 신종 유해사이트가 하루에도 몇 천 개씩 생성되며 반대로 운용하지 않는 유해사이트가 블랙 리스트에 많이 있기 때문으로, 차단 실패율 및 접속 방해비율이 높게 나타난다. 또한, 블랙 리스트를 업데이트하는데 많은 비용 및 시간이 소요된다는 단점이 존재한 다.

최근에 멀티미디어의 내용에 기반을 둔 검색이 MPEG-7의 표준화 정립으로 활성화 되면서 이러한 응용의 하나로서, 내용에 기반을 둔 유해 정보 필터링 기술에 대한 연구가 시작되고 있다. 하지만 이러한 연구와 실용화는 아직 초기 단계이며, 좀더 좋은 성능의 필터링에 대한 연구가 필요하다.

수많은 멀티미디어 데이터들이 다양한 용도로 사용되고 있으며, 사용자들은 다양한 목적으로 이러한 멀티미디어 데이터들을 사용하기를 원하고 있다. 따라서, 사용자가 원하는 정보를 빠르고 정확하게 전달하기 위해선 효과적인 검색 방법이 필요하다. MPEG-7은 멀티미디어 정보를 검색하기 위한 다양한 형태의 표준화된 특징 표현 기술의 집합이라 할 수 있다. MPEG-7 기술자(descriptor)는 멀티미디어 정보의 내용상의 구별되는 특징(feature)을 표현하기 위한 기본이 되는 기술이다. 여기서의 특징이란 색상, 질감, 형태, 움직임 등이 될 수 있다. 이러한 특징들을 이용해서 사용자가 원하는 멀티미디어 정보를 빠르고 효과적으로 검색할 수 있다. MPEG-7은 제목, 재생시간과 같이 미디어 단위의 메타데이터와 미디어 안에 포함되어 있는 정보, 예를 들면, 화면 안에 있는 각 오브젝트의 정보와 화면 배경 색 정보, 오브젝트의 위치 등 모든 기술할 수 있는 정보들을 메타데이터로 표현한다. 또한 메타데이터를 표기하는 방식으로 EBU/SMPTE처럼 코드화 방식을 취하지 않고, XML(eXtensible Markup Language)이라는 마크업 언어를 이용한 텍스트 표기 방식을 취한다. 이는 텍스트 혹은 마크업을 이용하여 메타데이터 항목과 메타데이터 값을 모두 나열함으로써 별도의 도구를 사용하지 않고도 어떤 메타데이터가 저장되어 있 는지를 알 수 있다는 장점이 있다.

국외의 인터넷 불건전 정보 필터링 소프트웨어는 대략 8 ~ 9개의 상품들이 출시되어 있으며 대표적으로 SurfControl 사의 제품이 시장 점유의 주요 상품이다. 그러나 이 제품 역시 문자 위주의 블랙 리스트 방식을 사용하고 있어 신종 유해 사이트에 대해 차단할 수 없으며 차단율이 저조한 실정이다. 최근에 기존의 문자 위주의 기술 개발에서 영상/비디오의 비정형 데이터의 필터링 연구가 고성능 정보 필터링을 위해 개발되고 있으나 정보 필터링을 위해서 멀티미디어정보의 인식의 성능 및 속도가 문제가 되며, 이를 해결하기 위해 고속 멀티미디어 정보 필터링기술이 현재 활발히 진행 중이다. 특히 판별 난해한 영상물의 경우는 대부분 예외 처리를 하고 있는 실정이다.

현재 인터넷에서 정보 필터링을 위해 주로 쓰이는 기술은 URL 및 문자 기반 정보를 DB화하여 불건전한 정보를 필터링하는 방법이다. 그러나 하루에도 수천 개의 신규 사이트가 발생하고 있다. 과거처럼 사이트의 주소에 'love','sex', 'xxx'등의 용어가 들어가지 않는 것이 최근의 상황이며, 기존 사이트의 경우에도 사이트 명을 변경하는 것이 일반적인 추세이다. 따라서 기존의 문자 위주의 필터링 방법은 한계가 있으며 특히 유해성이 강한 멀티미디어 정보의 내용과는 무관한 필터링 방법을 쓰고 있다.

관련 업계에 따르면 현재 불법 콘텐츠의 90%가 P2P 프로그램을 통해 유통되고 있다. 또 P2P 프로그램은 연령에 상관없이 이용이 가능해 청소년들이 아무런 통제 장치 없이 성인 콘텐츠를 확보하는 공간으로 활용되고 있다. P2P를 통해 유통되 는 유해물 가운데 가장 큰 비중을 차지하는 매체는 동영상이다. 따라서 사진이나 그림과 같은 정지영상뿐만 아니라, 유해 동영상을 차단하는 기술 개발이 필수적이다. 하지만 이러한 동영상 내용 기반 필터링 기술은 성능에 있어서 많은 문제점을 내포하며, 특히 유해 동영상의 특성 및 유해 동영상에 적합한 동영상 멀티-모달(multi-modal) 특성 추출 방안 제시 등이 풀어야 할 문제로 제기되고 있다.

본 발명은 기술적 과제는 상기의 문제점을 해결하기 위하여 안출된 것으로서, 유해 정보를 담고 있는 동영상을 차단하기 위하여, 키 프레임 기반 판단 엔진과 프레임 기반 판단 엔진을 이용하여 점진적으로 차단하고 유해 특징 정보를 동영상으로부터 추출한 내용 기반 비주얼 특징 정보, 오디오 특징 정보, 시간축 특징 정보 등의 멀티모달(multi-modal) 특징값들을 이용하여 유해 동영상을 차단하는 방법 및 그 장치를 제공하는데 있다.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법은 유해 동영상 분류 모델과 비유해 동영상 분류 모델로 이루어지는 판별모델을 구축하는 단계; 동영상 컨텐츠에서 비디오 스트림과 오디오 스트림으로 분리하는 단계; 상기 분리된 비디오 스트림에 대하여 소정의 비주얼 특징값을 추출하여 샷(shot) 경계를 검출한 후 각 샷에서 적어도 하나 이상의 키 프레임을 추출하고 상기 샷과 키 프레임정보를 생성하는 단계; 상기 비디오 스트림에 대하여 소정의 선처리를 수행한 후 상기 샷과 키 프레임 정보를 기 초로 상기 키 프레임의 멀티 모달 특징값을 추출하는 단계; 상기 멀티 모달 특징값을 상기 판별모델에 입력하여 샷의 유해성을 판단하는 단계; 및 상기 샷 기준의 판단 결과를 종합하여 상기 동영상 컨텐츠의 유해성을 판단하는 단계;를 포함하는 것을 특징으로 한다.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 장치는 적어도 한 종류 이상의 동영상을 내용을 기반으로 하여 유해동영상과 무해동영상으로 구분한 후 각각 적어도 하나 이상의 클래스로 구분하여 기계학습을 수행하여 판별모델을 출력하는 SVM 모델부; 유해 판별이 요구되는 동영상을 오디오 스트림과 비디오 스트림으로 분리하는 분리부; 상기 비디오 스트림에서 소정의 비주얼 특징값을 추출하여 샷(shot) 경계를 검출한 후 각 샷에서 적어도 하나 이상의 키 프레임을 추출하고 상기 샷과 키 프레임정보를 출력하는 제1추출부; 상기 샷과 키 프레임 정보를 기초로 상기 키 프레임의 적어도 하나 이상의 특징값을 추출하는 제2추출부; 및 멀티 모달 특징값을 상기 판별모델에 입력하여 샷의 유해성을 판단하고, 그 판단 결과를 종합하여 상기 동영상의 유해성을 판단하는 판별부;를 포함하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하면서 본 발명의 바람직한 일 실시 예를 상세히 설명한다. 설명의 편의와 이해의 용이함을 위하여 방법과 장치를 함께 서술하도록 한다. 도 1은 본 발명에 의한 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법의 과정을 보여주는 흐름도이고, 도 2는 도 1의 판별모델을 구축하는 과정(S110)을 보여주는 흐름도이다. 도 3은 도 1의 샷 경계와 키 프레임을 추출한 후 정보를 추출하는 과정(S130)을 보다 상세하게 보여주는 흐름도이며, 도 4는 유해 정보 검출을 위한 두 단계를 도식적으로 나타낸 흐름도이다. 또한 도 5는 도 1의 샷의 유해성을 판단하는 과정(S150)을 보다 상세하게 보여주는 흐름도이며, 도 6은 샷의 변화에 따른 시간축 특징값의 변화를 보여주는 도면이다. 그리고 도 7은 각 샷의 유해도 수치값의 시간에 따른 변화를 보여주는 도면이며 도 8은 본 발명에 의한 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 장치의 구성을 보여주는 블록도이다. 한편 도 9는 도 8의 판별부(860)의 상세 블록도이다.먼저, 도 1은 본 발명의 일 실시예에 따라 내용 기반 멀티모달 특징값을 이용하여 동영상의 유해 정보를 효과적으로 판단하기 위한 시스템 구성을 도시한 블록도이다.

도 1과 도 8을 참조하면, SVM 모델부(850)는 우선 동영상의 유해성을 판별하기 위하여 내용 기반 멀티 모달 특징값을 이용하여 판별 모델을 생성(malice modeling)한다(S110).

SVM 모델부(850)는 유해 정보 모델링 과정을 유해 클래스 모델링 과정(malice class modeling)과 비유해 클래스 모델링 과정(non-malice class modeling)으로 나누어 모델링하는 것을 기본 특징으로 하기 때문에, 먼저 유해 동영상 분류 모델 학습인지의 여부를 결정한다(S210).

유해 클래스 모델링은 유해 정보가 포함되어 있는 정도에 따라 등급을 나누어 수행한다. 이를 위해, 각 유해 클래스들에 속하는 영상을 수집하고, 영상들로부터 내용 기반 멀티모달 특징값을 추출한다. 추출한 특징값을 이용하여 각 유해 클래스 판별기(classifier)를 학습시킨다. 본 발명은 유해 클래스 판별기를 학습시키 기 위한 방법으로 SVM(support vector machine)을 이용하는 것을 기본 특징으로 포함한다. 그러나, 유해 클래스 판별기를 학습시키기 위한 방법이 SVM을 이용하는 것에 한정되지는 않는다. 본 발명은 유해 클래스로 다음의 세 가지 클래스를 포함하는 것을 기본 특징으로 한다. 그러나, 유해 클래스가 아래의 세 가지 클래스에 한정되지는 않는다.

(1) Close-up 클래스: 카메라를 유해 대상에 가까이하여 영상에서 유해 정보가 차지하는 비율이 많은 영상이 속하는 클래스.

(2) Perspective 클래스: 카메라를 유해 대상에 멀리하여 영상에서 유해 정보가 차지하는 비율이 적은 영상이 속하는 클래스.

(3) Semi-close-up 클래스: 영상에서 유해 정보가 차지하는 비율이 Close-up 클래스와 Perspective 클래스의 중간 단계에 속하는 영상이 속하는 클래스(이상 S220)

비유해 클래스 모델링은 유해 정보를 포함하고 있지 않은 일반적인 클래스로 나누어 수행한다. 이를 위해, 각 비유해 클래스들에 속하는 영상을 수집하고, 영상들로부터 내용 기반 멀티모달 특징값을 추출한다. 추출한 특징값을 이용하여 각 비유해 클래스 판별기(classifier)를 학습시킨다. 본 발명은 비유해 클래스 판별기를 학습시키기 위한 방법으로 SVM을 이용하는 것을 기본 특징으로 포함한다. 그러나, 비유해 클래스 판별기를 학습시키기 위한 방법이 SVM을 이용하는 것에 한정되지는 않는다. 본 발명은 비유해 클래스로 다음의 다섯 가지 클래스를 포함하는 것을 기본 특징으로 한다. 그러나, 비유해 클래스가 아래의 다섯 가지 클래스에 한정되지 는 않는다.

(1) Action 클래스: 유해 정보를 포함하고 있지 않으며, 카메라 또는 영상에 표현된 객체들의 움직임이 많고, 효과음이 많이 포함된 영상이 속하는 클래스.

(2) Crowd 클래스: 유해 정보를 포함하고 있지 않으며, 영상이 여러 명의 인물들에대한 장면과 음성이 포함된 영상이 속하는 클래스.

(3) Scenery 클래스: 유해 정보를 포함하고 있지 않으며, 배경이 차지하는 부분이 많고 영상의 대부분에 풍경이 포함된 영상이 속하는 클래스.

(4) Dialog 클래스: 유해 정보를 포함하고 있지 않으며, 소수(2 ~ 3명)의 인물들간의 대화 장면과 음성이 포함된 영상이 속하는 클래스.

(5) Graphic 클래스: 유해 정보를 포함하고 있지 않으며, 그래픽이나 문자 등 인위적 요소들이 장면에 포함된 영상이 속하는 클래스(이상 S230).

모델링된 유해 및 비유해 클래스 판별기는 아래와 같은 수학식 1에서와 같이 표현된다.

여기서, svm은 각 클래스의 판별기를 나타내며, n은 유해 클래스의 개수, m은 비 유해 클래스의 개수를 나타낸다.

상기 모델링된 유해 정보는 판별부(860)에 전달되어, 동영상의 유해 정보 포함 여부를 판별하는데 이용된다.

다음으로, 입력되는 동영상에 대한 오디오/비디오 스트림 분리 과정에 진입한다(S120). 분리부(810)는 영화, 드라마, 광고 등의 비디오 콘텐츠나 개인용 비디오 등의 멀티미디어 콘텐츠를 입력받는다. 본 발명은 미디어 입력부가 실시간으로 스트리밍(streaming)되는 콘텐츠를 입력받거나, 임의의 원격(remote)/지역(local) 저장 장치에 저장된 콘텐츠를 입력받는 것을 특징으로 한다. 본 발명은 미디어 콘텐츠의 파일 타입으로 현재 널리 쓰이고 있는 MPEG-1/2/4, AVI, WMA, MOV, DivX 등의 콘텐츠 파일 타입을 기본으로 포함할 수 있으나, 상기 예에 미디어 콘텐츠 파일 타입이 한정되지는 않는다. 입력 미디어가 부호화되어있지 않을 경우에는 상기 분리부(810)는 단지 오디오 스트림과 비디오 스트림을 분리해내는 디먹서(demuxer)의 기능만을 수행한다. 더하여 미디어가 부호화되어 있을 경우에는, 압축을 해제하여 오디오 스트림과 비디오 스트림을 분리해내는 역할을 수행한다. 본 발명은 압축된 미디어를 완전히 복호화하여 원래의 오디오/비디오 스트림을 얻는 것을 특징으로 하는 동시에, 부분적으로 복호화하여 오디오/비디오 스트림을 얻을 수도 있다.

다음으로, 제1추출부(820)는 상기 분리된 비디오 스트림에 대하여 샷 경계와 키 프레임을 추출하고 상기 샷과 키 프레임에 대한 정보를 생성한다(S130). 이를 위하여 비주얼특징추출부(821)는 입력된 비디오 스트림으로부터 비주얼 특징값을 추출하여 출력하고(S310), 샷경계검출부(823)는 추출된 비주얼 특징값을 이용하여, 입력 미디어의 샷 경계를 검출하며, 아래에 후술할 수학식 6 형태의 정보를 출력한다(S320 내지 S350). 제1추출부(820)는 미디어가 MPEG으로 압축되어 있는 경우, 압축 도메인에서 DC 영상을 추출하고, 추출된 DC 영상으로부터 비주얼 특징값을 추출 한 후, 추출된 특징값을 이용하여 샷 경계를 검출한다.

도 3을 참조하면서 보다 상세하게 설명하도록 한다. 샷경계검출부(825)는 샷 경계 검출시, 급진적 샷 검출(abrupt shot detection)과 점진적 샷 검출(gradual shot detection)로 나누어 검출하게 되는데(S340), 그 과정은 아래와 같다.

비디오의 샷 경계 중에서 컷(cut)은 인접한 두 프레임 사이에서의 급진적인(abrupt) 변화를 보이는 샷 경계를 나타낸다. 본 발명은 우선 비주얼 특징값을 이용해 얻어진 인접한 두 프레임 간의 유사도 거리값을 측정하는데(S330), 이 측정값이 주위의 유사도 거리값 보다 갑자기 커지면, 이 부분에서 컷이 발생한 것으로 본다. i번째 프레임과 이전 프레임간의 유사도 거리값(D_i)은 다음의 수학식 2에서와 같이 표현된다.

여기서,

는 현재 프레임의 특징벡터이고,

은 이전 프레임의 특징벡터이다. 함수

는 두 특징값 벡터의 유사도 거리값을 구하는 함수이다.

얻어진 유사도 거리값 전체에 대해 m 프레임 크기의 슬라이딩 윈도우를 한 프레임 씩 이동하면서 급진적 샷 경계 검출을 수행한다. 이때, i번째 프레임의 급진적 샷 경계 여부를 검출하기 위한 두가지 조건은 다음과 같다. (1)

가 m 간 격 구간의 영역 내에서 가장 크다. (2)

가 임의의 임계값(th₁)보다 크다. 임계값 th₁을 슬라이딩 영역 내의 두 번째로 큰 유사도 값보다 p배 이상으로 하는 것이 바람직하다. i번째 프레임에서 급진적 샷 변화가 발생했는지의 여부

는 다음의 수학식 3에서와 같이 표현된다.

여기서, m은 20 ~ 40 사이의 일정한 값이고, p는 1.5 ~ 3.5 사이의 일정한 값을 가지는 것을 기본 특징으로 포함한다.

비디오의 샷 경계 중에서 페이드(fade), 와이프(wipe), 디졸브(dissolve)와 같은 점진적 샷 경계는 인접한 두 샷 사이의 여러 개의 프레임들에서 발생한다. 이러한 점진적 샷 경계는 인접한 두 프레임 간의 변화가 크지 않고, 급진적 샷 경계 검출 방법과 같이 인접한 두 프레임간의 유사도 거리값을 이용하는 방법은 점진적 샷 경계 검출에 효과적이지 않다. 현재 프레임인 i번째 프레임과 l 간격의 이전 프레임인 (i-l)번째 프레임 간의 유사도 거리값 D_i ^l을 이용하여 점진적 샷 경계를 검출하는 것이 바람직하다. 현재 프레임인 i번째 프레임과 l 간격의 이전 프레임인 (i-l)번째 프레임 간의 유사도 거리값 D_i ^l은 아래의 수학식 4에서와 같이 표현된다.

이때, i번째 프레임의 점진적 샷 경계 여부를 검출하기 위한 두 가지 조건은 다음과 같다. (1) 유사도 거리값 D_i ^l가 일정 간격 s 구간 동안 유사한 값을 갖는다. (2) 유사도 거리값 D_i ^l가 일정 간격 s 구간 동안

과

보다 q배 이상 크다. 여기서, l값은 실험적으로 얻어지며, 약 20~40 정도의 값을 갖는 것이 바람직하다. i번째 프레임에서 점진적 샷 변화가 발생했는지의 여부(

)는 다음의 수학식 5에서와 같이 표현된다.

여기서, th₂는 유사도 거리값 D_i ^l가 일정 간격 s 구간 동안 유사한 값을 갖는지 검 사하기 위한 임계값이다. s는 3 ~ 7 사이의 일정한 값이고, q는 1.5 ~ 3.5 사이의 일정한 값을 갖는 것을 기본 특징으로 포함한다(이상 S340).

샷 경계가 검출되면, 다음으로 각 샷의 키 프레임을 추출한다. 샷의 길이에 따라 키 프레임을 추출하는 것이 바람직하다. 샷의 길이가 짧은 경우, 적은 수의 키 프레임을 추출하고, 샷의 길이가 긴 경우, 많은 수의 키 프레임을 추출한다. 샷의 길이에 따라 키 프레임을 추출하는 것이 바람직하지만, 키 프레임을 추출하는 방법이 샷의 길이에 따라 추출하는 것에 한정되지는 않는다. 만일 R개의 샷이 검출되었을 경우, 각 샷으로부터 키 프레임을 추출하면 샷 정보와 키 프레임 정보(key-frame and shot information)가 아래와 같은 수학식 6에서와 같이 표현된다.

여기서, s_r은 r번째 샷에 대한 정보를 나타내고, r_start는 r번째 샷의 시작 프레임 번호, r_end는 r번째 샷의 끝 프레임 번호, T _r 은 r번째 샷의 키 프레임 번호들의 집합이다(S350).

다음으로, 선처리부(830)는 입력된 영상으로부터 유해 정보를 보다 용이하게 추출하기 위하여, 선처리(pre-processing)를 수행하게 되며, 제2추출부(840)는 이 선처리된 영상을 입력받아 상기 샷과 키 프레임 정보를 수신하여 멀티 모달 특징값을 추출한다(S140). 선처리부(830)는 추출된 샷에 속하는 키 프레임 혹은 모든 프레임들에 대하여 영상을 임의의 정방형 크기로 조각내는 단순 객체 추출 방법이나 정교한 객체 추출 방법을 이용하여 임의 모양의 객체를 추출해내는 객체 추출 및 영상의 에지를 추출하는 샤프닝(sharpening)이나 영상을 표현하는 색상값의 범위를 줄이거나 노이즈를 감소시키는 블러링(blurring) 등의 필터링을 수행하는 선처리를 포함하는 것을 기본 특징으로 한다. 그러나, 영상의 선처리 방법이 이에 한정되지는 않는다.

한편, 도 4는 본 발명에 의한 유해 정보 검출을 위한 두 단계(즉 키 프레임 기반 검출 단계를 거친 후의 프레임 기반 검출 단계)를 도식적으로 나타낸 흐름도이다. 연속되는 영상 데이터 프레임에서 샷(410)이 검출되면 그 샷에서 키 프레임(411)을 추출하여 키 프레임 기반으로 유해 여부를 판단하게 된다(412). 이 과정에서 유해한 것으로 의심이 되면 그 샷(410)내의 모든 프레임(413)을 대상으로 하는 프레임 기반 유해 여부를 판단한게 되는데(414), 이에 대하여는 후술한다.

이제, 제2추출부(840)의 상세 기능을 살펴본다. 먼저 샷 정보 및 키 프레임 정보가 제2추출부(840)으로 전달되면, 해당 샷의 키 프레임에 대하여, 오디오 특징값, 비주얼 특징값을 추출한다.

내용 기반 멀티모달 특징값을 추출하는 방법으로 MPEG-7 서술자(descriptor)를 이용하는 것이 바람직하다. 그러나, 내용 기반 멀티모달 특징값을 추출하는 방법이 MPEG-7 서술자를 이용하는 것에 한정되지는 않는다.

오디오 특징부(841)는 오디오 특징값으로 해당 샷 구간에 대한 파워, 피치(pitch), 또는 음색(timbre) 특징값을 추출하고 이용하는 것을 기본 특징으로 포함하나 이에 한정되지는 않는다.

비디오 특징부(843)는 비주얼 특징값으로, 색상, 질감, 모양 등의 특징값을 추출하고 이용하는 것을 기본 특징으로 포함하나 이에 한정되지는 않는다.

다중 특징부(845)는, 임의 샷에서의 평균적인 객체 움직임 방향 및 정도, 카메라 움직임 방향 및 정도, 오디오/비주얼 특징값의 변화량 등의 특징값을 추출하고 이용하는 것을 기본 특징으로 포함하나 이에 한정되지는 않는다.

도 6은 샷의 변화에 따른 시간축 특징값의 변화를 나타낸 일 실시예를 나타낸다. 도 6에서 두 개의 비주얼 특징값과 두 개의 오디오 특징값이 사용되었으며, 변화량은 해당 샷을 대표하는 시간축 특징값으로 사용된다.

r번째 샷에 대한 내용 기반 멀티모달 특징값(

)은 아래와 같은 수학식에서와 같이 표현된다.

여기서,

는 r번째 샷의 오디오 특징값 벡터를 나타내고,

r번째 샷의 비주얼 특징값 벡터를 나타내고,

는 시간축 특징값 벡터를 나타낸다.

위와 같이 추출된 내용 기반 멀티모달 특징값은 판별부(860)로 입력되어 샷의 유해성을 판단하고 나서(S150), 궁극적으로 입력되는 동영상의 유해성을 판단하게 된다(S160). 이 과정들은 도 5를 참조하면서 상세하게 설명한다. 키 프레임 기반 판별부(910)는 상기의 멀티모달 특징값을 입력받아(S510) SVM모델부(850)에서 모델링된 유해 클래스 판별기(SVM models for malice classifier) 및 비유해 클래스 판별기(SVM models for non-malice classifier)에 입력되어(S520), 상기 특징값에 대한 신뢰도 값(confidence value)을 계산한다. 이를 위하여 키 프레임기반 r번째 샷에 대한 각 판별기의 신뢰도 값(v^r)은 아래의 수학식 8에서와 같이 표현된다.

여기서 n은 유해 카테고리 종류의 개수이며, m은 비유해 카테고리 종류의 개수이다. 상기 신뢰도 값을 이용하여 아래의 수학식 9에 따라 해당 샷이 유해성이 있는지 판단한다.

여기서, U_key _-frame()은 키 프레임 기반 유해성 판별 함수로 유해 및 비유해 클래스들중 신뢰도 값이 가장 큰 클래스의 신뢰도 값인

을 검출해낸다. 여기서, w_key는 신뢰도 값이 가장 큰 클래스의 식별자이다.

는 각 클래스 판별기에 대한 중요도 값으로, 해당 판별기가 얼마나 잘 학습되었는지에 대한 상대적 수치값이다.

값은

에 의하여 0.0에서 1.0 사이의 값을 갖도록 정규화된다.

만일,

값과 w_key 값이 아래의 수학식 10을 만족하는지 판단하고(S530), 만족하면 해당 샷에 유해 정보가 포함되어 있을 확률이 크다고 가정하고 프레임 기반 판별부(920)로 출력한다(S540). 그렇지 않으면, 해당 샷에 유해 정보를 포함되어 있지 않다고 최종 판정한다(S570).

여기서, x^r은 r번째 샷이 유해성을 포함하고 있는 정도를 나타내는 유해도 수치값이다. th₃는 키 프레임 기반 신뢰도 값이 유해 정보를 포함하고 있는지를 나타내기에 충분한지를 판단하기 위한 임계값이다. 그리고 n은 유해 카테고리 종류의 개수이며, m은 비유해 카테고리 종류의 개수이다.

프레임기반 판별부(920)는 상기 키 프레임 기반 판별부(910)에서 유해 정보가 있다고 판단되면, 보다 상세한 검사를 수행한다.

이를 위하여 샷 정보 및 프레임 정보가 제2추출부(840)로 전달된다. 제2추출 부(840)는 해당 샷의 모든 프레임에 대하여, 오디오 특징값, 비주얼 특징값, 시간축 특징값(상기 다중 특징값과 동의어임)을 추출한다. 특징값의 종류 및 범위는 상기 키 프레임 기반 유해 정보 판별 과정과 동일하다.

프레임 기반 판별부(920)에서는 입력된 내용 기반 멀티모달 특징값을 SVM 모델부(850)에서 모델링된 유해 클래스 판별기 및 비유해 클래스 판별기에 대입한다. 그러면 각 판별기는 입력된 특징값에 대한 신뢰도 값을 출력하게 된다.

상기 신뢰도 값을 이용하여 아래의 수학식 11에 따라 해당 샷이 유해성이 있는지 판단한다.

여기서, U_frame()은 프레임 기반 유해성 판별 함수로 유해 및 비유해 클래스들중 신뢰도 값이 가장 큰 클래스의 신뢰도 값인

를 검출해낸다. w_frame은 신뢰도 값이 가장 큰 클래스의 식별자이다.

값은 다음의 수식

에 의하여 0.0에서 1.0 사이의 값을 갖도록 정규화된다. 그리고 n은 유해 카테고리 종류의 개수이며, m은 비유해 카테고리 종류의 개수이다.

샷결정부(930)는 만일,

값과 w_frame이 아래의 수학식 12를 만족하는지를 판단하는데(S550), 만약 수학식 12를 만족하면 유해한 샷으로 결정(S560)하고, 만일 그렇지 않으면, 해당 샷에 유해 정보를 포함되어 있지 않다고 판정한다(S570).

여기서, th₄는 프레임 기반 신뢰도 값이 유해 정보를 포함하고 있는지를 나타내기에 충분한지를 판단하기 위한 임계값이다. r번째 샷의 유해도 수치값은 키 프레임 판단 모듈에서 결정된 유해도 수치값과 프레임 판단 모듈에서 결정된 유해도 수치값들 가운데 큰 값으로 대치된다. 그리고 n은 유해 카테고리 종류의 개수이다.

도 7은 본 발명에 의한 각 샷의 유해도 수치값의 변화를 나타낸 일실시 예이다. 최종적으로, 유해판단부(940)는 각 샷의 유해도 수치값을 이용하여 입력 미디 어에 대한 유해도 수치값(X)을 아래의 수학식 13에 의해 결정한다(S580).

즉, 입력 미디어에 대한 유해도 수치값(X)은 각 샷의 유해도 수치값을 평균낸 값이다. 상기 유해도 수치값 X가 소정의 임계치를 초과하면 유해동영상으로 결정하고(S590), 그렇지 않으면 무해한 동영상으로 결정한다(S595).

본 발명에 의한 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등이 있으며, 또한 캐리어 웨이브(예를들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. 또한 본 발명에 의한 폰트 롬 데이터구조도 컴퓨터로 읽을 수 있는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등과 같은 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다.

이상과 같이 본 발명은 양호한 실시예에 근거하여 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것으로, 본 발명이 속하는 기술분야의 숙련자라면 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.

이상에서 설명한 바와 같이, 본 발명에 의한 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법 및 그 장치는 동영상에 포함된 폭력 및 노출 등의 유해 정보를 검출하고 유해성을 포함하는 콘텐츠 및 콘텐츠의 일부 구간을 차단하는 과정에 있어서, 키프레임 기반 판단 엔진과 프레임 기반 판단 엔진을 이용한 점진적 차단 방법을 이용하고, 유해 특징 정보를 동영상으로부터 추출한 내용 기반 비주얼 특징 정보, 오디오 특징 정보, 시간축 특징 정보 등의 멀티모달(multi-modal) 특징값들을 이용함으로써, 인터넷을 통한 유해 동영상 차단, P2P를 통한 유해 동영상 유통 제어, 디지털 방송 스트림의 실시간 유해 정보 감시 시스템에 적용될 수 있다.

Claims

(a) 유해 동영상 분류 모델과 비유해 동영상 분류 모델로 이루어지는 판별모델을 구축하는 단계;

(b) 동영상 컨텐츠에서 비디오 스트림과 오디오 스트림으로 분리하는 단계;

(c) 상기 분리된 비디오 스트림에 대하여 소정의 비주얼 특징값을 추출하여 샷(shot) 경계를 검출한 후 각 샷에서 적어도 하나 이상의 키 프레임을 추출하고 상기 샷과 키 프레임정보를 생성하는 단계;

(d) 상기 비디오 스트림에 대하여 소정의 선처리를 수행한 후 상기 샷과 키 프레임 정보를 기초로 상기 키 프레임의 멀티 모달 특징값을 추출하는 단계;

(e) 상기 멀티 모달 특징값을 상기 판별모델에 입력하여 샷의 유해성을 판단하는 단계; 및

(f) 상기 샷 기준의 판단 결과를 종합하여 상기 동영상 컨텐츠의 유해성을 판단하는 단계;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법.
제1항에 있어서, 상기 (a)단계는

(a1) 적어도 한 종류 이상의 동영상을 내용을 기반으로 하여 유해동영상과 무해동영상으로 구분하는 단계; 및

(a2) 상기 유해동영상과 무해동영상이 가지고 있는 소정의 유해 정보에 따라 각각 적어도 하나 이상의 클래스로 구분하여 SVM(Support Vector Machine)을 포함하는 기계학습을 수행한 후 유해 동영상 분류 모델과 비유해 동영상 분류 모델로 형성하여 상기 판별모델을 생성하는 단계;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법
제1항에 있어서, 상기 (c)단계는

(c1) 상기 비주얼 특징값을 나타내는 특징벡터를 기초로 인접한 두 프레임간의 유사도 거리값을 계산하는 단계; 및

(c2) 상기 유사도 거리값과 소정의 임계치를 비교한 후 급진적 샷 혹은 점진적 샷으로 구분하여 상기 샷 경계를 검출하는 단계;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법.
제3항에 있어서, 상기 (c2)단계는

(c21) 상기 유사도 거리값 전체에 대하여 소정의 프레임 크기의 슬라이딩 윈도우를 한 프레임씩 이동하면서 상기 샷 경계 검출을 수행하되, 인접한 두 프레임의 특징벡터간의 유사도 거리값이 상기 슬라이딩 윈도우 간격 구간내에서 가장 크고 소정의 제1임계치보다 크면 상기 급진적 샷으로 결정하는 단계; 및

(c22) 상기 유사도 거리값이 소정의 프레임 구간 동안 유사한 값을 가지면서, 상기 구간 동안 현재 프래임에 대해 1/2 이전 프레임과 1/2 이후 프레임에 대한 유사도 거리값보다 소정의 정수배 이상 크면 상기 점진적 샷으로 결정하는 단 계;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법.
제1항에 있어서, 상기 (d)단계는

영상의 에지를 추출하는 샤프닝(sharpening) 혹은/그리고 영상을 표현하는 색상값의 범위를 줄이거나 잡음(noise)을 감소시키는 블러링(blurring)을 수행하는 단계;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법.
제1항에 있어서, 상기 멀티 모달 특징값은

오디오 특징값, 비주얼 특징값, 시간축 특징값을 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법.
제6항에 있어서, 상기 오디오 특징값은 상기 샷 구간의 파워, 피치(pitch), 음색(timber)을 포함하는 오디오 특성을 대표하며, 상기 비주얼 특징값은 색상, 질감, 모양을 포함하는 비디오 특성을 대표하며, 상기 시간축 특징값은 샷에서의 평균적인 객체 움직임 방향, 카메라의 움직임의 방향 및 정도, 상기 오디오 혹은 비디오 특징값의 변화량을 포함하는 특성을 대표하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법.
제1항에 있어서, 상기 (e)단계는

(e1) 상기 키 프레임의 멀티 모달 특징값을 상기 판별 모델에 입력한 결과가 소정의 키 프레임기반 신뢰도 기준치를 초과하는지 판단하여 프레임기반의 판단 필요성을 결정하는 단계;및

(e2) 프레임기반의 판단이 필요한 것으로 결정되면 상기 샷의 모든 프레임의 멀티 모달 특징값을 상기 판별 모델에 입력하여 그 결과가 소정의 프레임기반 신뢰도 기준치를 초과하는지 판단하는 단계; 및

(e3) 상기 프레임기반 신뢰도 기준치를 초과하면 그 샷을 유해한 것을 결정하는 단계;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법.
제8항에 있어서, 상기 (e1)단계는 아래의 수학식 14에 의하여 신뢰도 값이 가장 큰 키 프레임기반 신뢰도 값
을 검출하고, 그 값이 아래의 수학식 15를 만족하면 상기 (e2)단계로의 진행을 결정하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법.

여기서,
는 신뢰도 값이 가장 큰 클래스의 신뢰도 값이고,
는 신뢰도 값이 가장 큰 클래스의 식별자이고,
는 각 클래스 판별기에 대한 중요도 값으로서 0에서 1사이의 값을 갖도록 정규화된 값이다.

여기서,
은 r번째 샷이 가지는 유해성의 정도이며, th₃는 키 프레임 기반 신뢰도 값이 유해 정보를 포함하고 있는 지를 판단하기 위하여 설정되는 임계치이다.
제8항에 있어서, 상기 (e2)단계는

아래의 수학식 16에 의하여 신뢰도 값이 가장 큰 키 프레임기반 신뢰도 값
을 검출하고, 그 값이 아래의 수학식 17을 만족하면 상기 샷을 유해한 것을 결정하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법.

여기서,
는 신뢰도 값이 가장 큰 클래스의 신뢰도 값이고,
는 신뢰도 값이 가장 큰 클래스의 식별자이고,
는 각 클래스 판별기에 대한 중요도 값으로서 0에서 1사이의 값을 갖도록 정규화된 값이다.

여기서, th₄는 프레임기반 신뢰도 값이 유해정보를 포함하고 있는지를 판단하기 위한 임계치이다.
제1항에 있어서, 상기 (f)단계는

상기 샷의 소정의 유해도 값을 평균하여 소정의 기준치를 초과하는 단계;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 방법.
적어도 한 종류 이상의 동영상을 내용을 기반으로 하여 유해동영상과 무해동영상으로 구분한 후 각각 적어도 하나 이상의 클래스로 구분하여 기계학습을 수행하여 판별모델을 출력하는 SVM 모델부;

유해 판별이 요구되는 동영상을 오디오 스트림과 비디오 스트림으로 분리하는 분리부;

상기 비디오 스트림에서 소정의 비주얼 특징값을 추출하여 샷(shot) 경계를 검출한 후 각 샷에서 적어도 하나 이상의 키 프레임을 추출하고 상기 샷과 키 프레임정보를 출력하는 제1추출부;

상기 샷과 키 프레임 정보를 기초로 상기 키 프레임의 적어도 하나 이상의 특징값을 추출하는 제2추출부; 및

멀티 모달 특징값을 상기 판별모델에 입력하여 샷의 유해성을 판단하고, 그 판단 결과를 종합하여 상기 동영상의 유해성을 판단하는 판별부;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 장치.
제12항에 있어서, 상기 제1추출부는

상기 비주얼 특징값을 나타내는 특징벡터를 기초로 인접한 두 프레임간의 유사도 거리값을 계산하여 출력하는 비주얼특징추출부; 및

상기 유사도 거리값과 소정의 임계치를 입력받아 급진적 샷 혹은 점진적 샷으로 구분하여 상기 샷 경계를 검출하는 샷경계추출부;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 장치.
제12항에 있어서, 상기 샷경계추출부는

상기 유사도 거리값 전체에 대하여 m 프레임 크기의 슬라이딩 윈도우를 한 프레임씩 이동하면서 상기 샷 경계 검출을 수행하되, 인접한 두 프레임의 특징벡터간의 유사도 거리값이 상기 m 간격 구간내에서 가장 크고 소정의 제1임계치보다 크면 상기 급진적 샷으로 결정하는 급진적샷결정부; 및

상기 유사도 거리값이 소정의 프레임 구간 동안 유사한 값을 가지면서, 상기 구간 동안 상기 구간 동안 1/2 이전 프레임과 1/2 이후 프레임에 대한 유사도 거리값 보다 소정의 정수배 이상 크면 상기 점진적 샷으로 결정하는 점진적샷결정부를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 장치.
제12항에 있어서, 상기 제2추출부는

상기 샷 구간의 파워, 피치(pitch), 음색(timber)을 포함하는 오디오 특성을 추출하는 오디오추출부;

상기 샷 구간의 색상, 질감, 모양을 포함하는 비주얼 특성을 추출하는 비디오추출부; 및

상기 샷에서의 평균적인 객체 움직임 방향, 카메라의 움직임의 방향 및 정도, 상기 오디오 혹은 비디오 특징값의 변화량을 포함하는 특성을 추출하는 다중추 출부;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 장치.
제12항에 있어서, 상기 판별부는

상기 키 프레임의 멀티 모달 특징값을 상기 판별 모델에 입력한 결과가 소정의 키 프레임기반 신뢰도 기준치를 초과하는지 판단하는 프레임기반판별부;

프레임기반의 판단이 필요한 것으로 결정되면 상기 샷의 모든 프레임의 멀티 모달 특징값을 상기 판별 모델에 입력하여 그 결과가 소정의 프레임기반 신뢰도 기준치를 초과하는지 판단하는 프레임기반판별부;

상기 프레임기반 신뢰도 기준치를 초과하면 그 샷을 유해한 것을 결정하는 샷결정부; 및

유해한 것으로 결정된 샷의 신뢰도의 평균값을 계산하여 소정의 기준치를 초과하면 상기 동영상을 유해한 것으로 결정하는 유해판단부;를 포함하는 것을 특징으로 하는 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단 장치.