KR20200144417A

KR20200144417A - 멀티모달 콘텐츠 분석 시스템 및 그 방법

Info

Publication number: KR20200144417A
Application number: KR1020190072484A
Authority: KR
Inventors: 강미나; 김만준
Original assignee: 빅펄 주식회사
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2020-12-29
Also published as: KR102276728B1

Abstract

본 발명은 멀티모달 콘텐츠 분석 시스템 및 그 방법에 관한 것으로서, 미디어 채널을 통해 업로드된 콘텐츠를 분석하는 멀티모달 콘텐츠 분석 시스템에 의해 수행되는 멀티모달 콘텐츠 분석 방법은, a) 상기 미디어 채널을 통해 콘텐츠 공유 서비스를 제공하는 적어도 하나 이상의 콘텐츠 공유 플랫폼으로부터 오디오, 비디오, 자막 및 메타데이터를 포함한 콘텐츠들을 수집하는 단계; b) 상기 수집된 콘텐츠들을 자연어 처리 기반의 전처리를 통해 각 콘텐츠에 대한 맥락을 포함하는 내용 텍스트 정보와 시청자의 게시 반응을 포함하는 사용자 반응 텍스트 정보가 결합된 영상 문서 데이터로 각각 생성하는 단계; c) 텍스트 분석에 기반한 멀티모달 분석 모델을 이용하여 상기 영상 문서 데이터의 프레임별로 특성 벡터를 추출하고, 상기 추출된 특성 벡터를 이용하여 콘텐츠 분류를 위한 분류기를 학습하는 단계; 및 d) 상기 미디어 채널에 대한 콘텐츠 탐색을 통해 새로운 콘텐츠가 발견된 경우, 상기 학습된 멀티모달 분석 모델을 이용하여 새로운 콘텐츠에 대한 분석 결과를 제공하는 단계를 포함하되, 상기 멀티모달 분석 모델은, 상기 특성 벡터간의 유사성에 기초하여 전체 영상 문서 데이터를 K개의 그룹으로 분류하는 클러스터링 알고리즘을 통해 생성된 분류기를 학습하고, 상기 학습된 분류기가 새로운 콘텐츠에서 추출된 특성 벡터를 이용하여 기 정의된 카테고리(category)에 자동으로 분류하는 것이다.

Description

멀티모달 콘텐츠 분석 시스템 및 그 방법{MULTIMODAL CONTENT ANALYSIS SYSTEM AND METHOD}

본 발명은 멀티모달 콘텐츠 분석 시스템 및 그 방법에 관한 것이다.

사용자들이 미디어를 접하는 디바이스 환경이 다양화되고 그 속에서 접할 수 있는 콘텐츠의 양이 많아지고 있다. 특히 급속도로 발전한 모바일 환경에서 사용자들은 개인화된 기기를 사용하여 콘텐츠를 소비하고 주변 사용자들과 경험을 공유한다. 콘텐츠 제공 서비스에서는 이러한 개인의 콘텐츠 소비 이력 및 SNS관계에서 발생한 데이터를 분석하여 활용함으로써 콘텐츠 소비를 활성화하고자 한다.

콘텐츠 제공 서비스 중에서 사용자에게 적합한 콘텐츠를 선별해주는 콘텐츠 추천 알고리즘은 모든 콘텐츠 공유 플랫폼에서 필수적인 요소가 되고 있다. 콘텐츠 추천 알고리즘은 시청자의 소비 이력이나 콘텐츠의 메타데이터 등을 콘텐츠 분석 알고리즘을 통해 사용자가 가장 필요로 할 것이라 유추되는 콘텐츠를 도출하여 제공하는 것이다.

콘텐츠 분석 알고리즘은 콘텐츠의 오디오, 비디오, 자막 등의 내용뿐만 아니라 조회수, 노출수, 시청 시간뿐만 아니라 댓글이나, 좋아요/싫어요, 공유 등의 시청자 반응에 대한 분석도 중요한 정보로 사용되고 있다.

도 1은 일반적인 콘텐츠 분석 알고리즘에서 사용되는 데이터 변화를 설명하는 도면이다.

도 1에 도시된 바와 같이, 소셜 네트워크 서비스(Facebook, Twitter), 콘텐츠 공유 사이트(Youtube, Flickr) 등 새로운 형태의 콘텐츠 공유 플랫폼들이 활성화되면서, 콘텐츠 공유 플랫폼을 통해 공유되고 있는 동영상 콘텐츠들이 싱글모달 데이터에서 음성, 영상, 자막, 메타데이터 등의 다변량 데이터 형태인 멀티모달 데이터로 발전하고 있다.

콘텐츠 공유 플랫폼을 통해 새롭게 등장하고 있는 콘텐츠 및 사용자의 수가 급격히 증가하고 있기 때문에 일반적인 데이터 분석 알고리즘으로는 대량의 멀티모달 콘텐츠를 분석하기 위해 급격히 증가하는 연산량을 처리할 수 없고, 빠르게 요구되는 분석 속도를 감당할 수 없다는 문제점이 있다. 따라서, 콘텐츠 분석 알고리즘은 대량의 멀티모달 데이터를 빠르고 정확하게 분석하는 기술을 필요로 하고 있다.

본 발명은 전술한 문제점을 해결하기 위하여, 본 발명의 일 실시예에 따라 멀티모달 데이터형태의 콘텐츠들을 빠르고 정확하게 분석할 수 있고, 콘텐츠들에 대한 내용과 시청자 반응을 결합한 형태로 분석 결과를 제공하는 것에 목적이 있다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서 본 발명의 일 실시예에 따른 미디어 채널을 통해 업로드된 콘텐츠를 분석하는 멀티모달 콘텐츠 분석 시스템에 의해 수행되는 멀티모달 콘텐츠 분석 방법은, a) 상기 미디어 채널을 통해 콘텐츠 공유 서비스를 제공하는 적어도 하나 이상의 콘텐츠 공유 플랫폼으로부터 오디오, 비디오, 자막 및 메타데이터를 포함한 콘텐츠들을 수집하는 단계; b) 상기 수집된 콘텐츠들을 자연어 처리 기반의 전처리를 통해 각 콘텐츠에 대한 맥락을 포함하는 내용 텍스트 정보와 시청자의 게시 반응을 포함하는 사용자 반응 텍스트 정보가 결합된 영상 문서 데이터로 각각 생성하는 단계; c) 텍스트 분석에 기반한 멀티모달 분석 모델을 이용하여 상기 영상 문서 데이터의 프레임별로 특성 벡터를 추출하고, 상기 추출된 특성 벡터를 이용하여 콘텐츠 분류를 위한 분류기를 학습하는 단계; 및 d) 상기 미디어 채널에 대한 콘텐츠 탐색을 통해 새로운 콘텐츠가 발견된 경우, 상기 학습된 멀티모달 분석 모델을 이용하여 새로운 콘텐츠에 대한 분석 결과를 제공하는 단계를 포함하되, 상기 멀티모달 분석 모델은, 상기 특성 벡터간의 유사성에 기초하여 전체 영상 문서 데이터를 K개의 그룹으로 분류하는 클러스터링 알고리즘을 통해 생성된 분류기를 학습하고, 상기 학습된 분류기가 새로운 콘텐츠에서 추출된 특성 벡터를 이용하여 기 정의된 카테고리(category)에 자동으로 분류하는 것이다.

또한, 본 발명의 다른 일 실시예에 따른 미디어 채널을 통해 업로드된 콘텐츠를 분석하는 멀티모달 콘텐츠 분석 시스템은, 멀티모달 콘텐츠 분석 방법을 수행하기 위한 프로그램이 기록된 메모리; 및 상기 프로그램을 실행하기 위한 프로세서를 포함하며, 상기 프로세서는, 상기 프로그램의 실행에 의해, 상기 미디어 채널을 통해 콘텐츠 공유 서비스를 제공하는 적어도 하나 이상의 콘텐츠 공유 플랫폼으로부터 오디오, 비디오, 자막 및 메타데이터를 포함한 콘텐츠들을 수집하고, 상기 수집된 콘텐츠들을 자연어 처리 기반의 전처리를 통해 각 콘텐츠에 대한 맥락을 포함하는 내용 텍스트 정보와 시청자의 게시 반응을 포함하는 사용자 반응 텍스트 정보가 결합된 영상 문서 데이터로 각각 생성하고, 텍스트 분석에 기반한 멀티모달 분석 모델을 이용하여 상기 영상 문서 데이터의 프레임별로 특성 벡터를 추출하고, 상기 추출된 특성 벡터를 이용하여 콘텐츠 분류를 위한 분류기를 학습하고, 상기 미디어 채널에 대한 콘텐츠 탐색을 통해 새로운 콘텐츠가 발견된 경우, 상기 학습된 멀티모달 분석 모델을 이용하여 새로운 콘텐츠에 대한 분석 결과를 제공하되, 상기 멀티모달 분석 모델은, 상기 특성 벡터간의 유사성에 기초하여 전체 영상 문서 데이터를 K개의 그룹으로 분류하는 클러스터링 알고리즘을 통해 생성된 분류기를 학습하고, 상기 학습된 분류기가 새로운 콘텐츠에서 추출된 특성 벡터를 이용하여 기 정의된 카테고리(category)에 자동으로 분류하는 것이다.

전술한 본 발명의 과제 해결 수단에 의하면, 멀티모달 분석 모델을 이용하여 사용자들은 수많은 콘텐츠들을 일일이 살펴볼 필요없이 특정한 카테고리에 대해 레이블링함으로써 대량의 멀티모달 데이터형태의 콘텐츠들을 빠르고 정확하게 분석할 수 있고 해당 카테고리 내의 콘텐츠들에 대한 내용과 시청자 반응을 한번에 살펴볼 수 있다.

도 1은 일반적인 콘텐츠 분석 알고리즘에서 사용되는 데이터 변화를 설명하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 멀티모달 콘텐츠 분석 시스템의 전체 구성을 설명하는 도면이다.
도 3은 본 발명의 일실시예에 따른 멀티모달 콘텐츠 분석 시스템의 세부 구성을 설명하는 도면이다.
도 4는 본 발명의 일 실시예에 따른 멀티모달 콘텐츠 분석 방법을 설명하는 순서도이다.
도 5는 콘텐츠의 화면 및 메타데이터 형태를 설명하기 위한 예시도이다.
도 6은 본 발명의 일 실시예에 따른 영상 문서 데이터를 설명하기 위한 예시도이다.
도 7은 본 발명의 일 실시예에 따른 데이터 저장모듈 의 구조를 설명하는 도면이다.
도 8은 본 발명의 일 실시예에 따른 멀티모달 분석 모델의 학습 과정을 설명하기 위한 예시도이다.
도 9는 본 발명의 일 실시예에 따른 멀티모달 분석 모델의 콘텐츠 분류 과정을 설명하는 도면이다.
도 10는 도 9의 분류 결과를 설명하기 위한 예시도이다.
도 11은 본 발명의 일 실시예에 따른 멀티모달 분석 모델의 집중 알고리즘을 설명하기 위한 예시도이다.
도 12는 도 11의 집중 가중치를 이용하는 집중 알고리즘을 설명하기 위한 예시도이다.
도 13은 본 발명이 일 실시예에 따른 멀티모달 분석 모델의 분석 결과를 설명하기 위한 예시도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에서 ‘단말’은 휴대성 및 이동성이 보장된 무선 통신 장치일 수 있으며, 예를 들어 스마트 폰, 태블릿 PC 또는 노트북 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다. 또한, ‘단말’은 네트워크를 통해 다른 단말 또는 서버 등에 접속할 수 있는 PC 등의 유선 통신 장치인 것도 가능하다. 또한, 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다.

무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.

이하의 실시예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아니다. 따라서 본 발명과 동일한 기능을 수행하는 동일 범위의 발명 역시 본 발명의 권리 범위에 속할 것이다.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 멀티모달 콘텐츠 분석 시스템의 전체 구성을 설명하는 도면이고, 도 3은 본 발명의 일실시예에 따른 멀티모달 콘텐츠 분석 시스템의 세부 구성을 설명하는 도면이다.

도 2 및 도 3을 참조하면, 멀티모달 콘텐츠 분석 시스템(100)는 통신 모듈(110), 메모리(120), 프로세서(130), 데이터 저장모듈(140) 및 표시 모듈(150)을 포함한다. 한편, 콘텐츠 공유 플랫폼(200)은 다중 채널 네트워크(Multi-Channel Networks, MCN) 서비스를 제공하는 시스템 또는 사업자가 제공하는 유튜브, 아프리카 TV, 트위치, 인스타그램 등이 될 수 있고, 사용자 단말(300)은 1인 동영상 창작자 또는 크리에이터가 소지한 단말이거나, 미디어 채널상에 업로드된 콘텐츠를 시청하는 시청자가 소지한 단말일 수 있다.

통신 모듈(110)은 통신망과 연동하여 멀티모달 콘텐츠 분석 시스템(100)이 사용자 단말(300), 콘텐츠 공유 플랫폼(200)과의 송수신 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공한다. 나아가, 통신 모듈(110)은 사용자 단말(300)로부터 데이터 요청을 수신하고, 이에 대한 응답으로서 데이터를 송신하는 역할을 수행할 수 있다. 또한, 통신 모듈(110)은 콘텐츠 공유 플랫폼(200)에 데이터 요청을 송신하고, 이에 대한 응답으로서 데이터를 수신하는 역할을 수행할 수 있다.

여기서, 통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.

메모리(120)는 멀티모달 콘텐츠 분석 방법을 수행하기 위한 프로그램이 기록된다. 또한, 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 여기서, 메모리(120)는 휘발성 저장 매체(volatile storage media) 또는 비휘발성 저장 매체(non-volatile storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

프로세서(130)는 멀티모달 콘텐츠 분석 방법을 수행하기 위한 프로그램을 실행함으로써 멀티모달 분석 모델을 이용한 콘텐츠에 대한 분석 결과를 사용자 단말(300) 또는 콘텐츠 공유 플랫폼(200)에 제공하는 전체 과정을 제어한다. 프로세서(130)가 수행하는 각각의 동작에 대해서는 추후 보다 상세히 살펴보기로 한다.

여기서, 프로세서(130)는 프로세서(processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

관계형 데이터베이스(140)와 스토리지(145)를 포함하는 데이터 저장모듈 (140)은 멀티모달 콘텐츠 분석 방법을 수행하면서 누적되는 데이터가 저장된다. 예컨대, 관계형 데이터베이스(141)에는 텍스트 정보, 시간 정보, 수치 정보, 작은 크기의 바이너리 데이터 등의 하이레벨 특성을 갖는 데이터들이 저장될 수 있고, 스토리지(145)에는 관계형 데이터베이스(140)에 저장하기 어려운 이미지, 비디오, 오디오 등의 소스 데이터들인 로우레벨 특성을 갖는 데이터들이 저장될 수 있다. 관계형 데이터베이스(141)와 스토리지(145)의 저장 방식은 데이터 적재, 접근 및 데이터 저장의 관리 비용 등에 따른 변형 방식을 포함한다.

표시 모듈(150)은 프로세서(130)의 제어에 의해 콘텐츠에 대한 분석 결과를 텍스트, 테이블 또는 그래프 형태의 보고서로 화면 출력한다.

도 4는 본 발명의 일 실시예에 따른 멀티모달 콘텐츠 분석 방법을 설명하는 순서도이고, 도 5는 콘텐츠의 화면 및 메타데이터 형태를 설명하기 위한 예시도이며, 도 6은 본 발명의 일 실시예에 따른 영상 문서 데이터를 설명하기 위한 예시도이다.

복수의 사용자 단말(300)은 다양한 콘텐츠 공유 플랫폼(200)을 이용하여 미디어 채널 상에 자신이 제작한 콘텐츠를 업로드할 수 있고, 미디어 채널에 업로드된 콘텐츠를 조회 또는 시청하면서 댓글, 좋아요/싫어요 클릭 등의 게시물을 게시하면서 미디어 활동을 수행할 수 있다(S1).

멀티모달 콘텐츠 분석 시스템(100)은 API(Application Programming Interface)를 이용하여 콘텐츠 공유 플랫폼(200)을 통해 채널별로 콘텐츠들을 수집한다(S2, S3). 이때, 콘텐츠는 인터넷 등의 통신망을 통해 제공되는 각종 디지털 정보를 의미하는 것으로서, 비디오, 자막, 이미지, 오디오 등의 각종 정보 내용물, 프로그램, 영화, 음악, 게임 소프트웨어 등을 의미할 수 있다.

멀티모달 콘텐츠 분석 시스템(100)은 API 또는 크롤링을 통한 데이터 요청시 일시적인 장애 발생하거나, 데이터 요청응답 시간이 지연되는 경우에, 기설정된 대기 시간 이후에 다시 데이터 요청을 수행할 수 있다. 그러나, 데이터 접근 권한이 상실된 경우, 각 콘텐츠 공유 플랫폼에 개별적으로 데이터 요청을 수행한 이후에 데이터 요청에 대한 로직 실행을 중단하거나 건너뛰게 된다.

콘텐츠 공유 플랫폼별로 콘텐츠 제공 방식이 상이하기 때문에, 멀티모달 콘텐츠 분석 시스템(100)은 수집된 콘텐츠에 관련된 객체들을 탐색하고, 탐색된 객체 구조에 따른 관계성을 파악한다. 즉, 멀티모달 콘텐츠 분석 시스템(100)은 콘텐츠 공유 플랫폼(200) 내부에 어떤 콘텐츠들이 구성되어 있는지 탐색하고, 콘텐츠를 구성하는 오디오, 비디오, 자막 및 메타데이터 등의 객체를 탐색하며, 메타데이터 내 시청자의 게시 반응에 연관되는 객체들을 확인할 수 있다. 예를 들어, 콘텐츠 공유 플랫폼(200)이 유튜브인 경우, 멀티모달 콘텐츠 분석 시스템(100)은 탐색 기능을 통해 유튜브에 존재하는 채널들을 파악하고, 일정 시간마다 유튜브 내에 새로운 채널이나 동영상 콘텐츠들이 업로드 되는지를 탐색 및 발굴할 수 있다.

멀티모달 콘텐츠 분석 시스템(100)은 수집된 영상 콘텐츠에 대한 로그정보를 데이터 저장모듈(140)에 저장하고, 새로운 콘텐츠 탐색시 데이터 저장모듈(140)의 로그 정보를 이용하여 이미 탐색한 콘텐츠를 확인할 수 있고, 새로 업로드된 콘텐츠에 대해 신속하고 효율적인 탐색을 수행할 수 있다.

도 5에 도시된 바와 같이, 멀티모달 콘텐츠 분석 시스템(100)은 유튜브 API 요청을 통해 콘텐츠 A를 수집할 수 있고, 수집된 콘텐츠 A는 타임 라인에 따라 비디오, 오디오, 자막, 메타 데이터를 포함하고 있다. 이때, 메타 데이터에는 콘텐츠 A의 제목, 설명, 태그, 카테고리, 조회수, 좋아요 수, 싫어요 수, 얼로드 시간, 썸 네일, 댓글 등을 포함한다.

멀티모달 콘텐츠 분석 시스템(100)은, 도 6에 도시된 바와 같이, 콘텐츠들을 자연어 처리 기반의 전처리를 통해 각 콘텐츠에 대한 맥락을 포함하는 내용 텍스트 정보와 시청자의 게시 반응을 포함하는 사용자 반응 텍스트 정보를 결합하여 영상 문서 데이터를 생성한다(S4).

콘텐츠에 대한 전처리 과정은 불용어 처리, 자모 분리, 어간 추출, 단어 토큰화 등을 수행하여 각 콘텐츠의 내용 텍스트 정보와 사용자 반응 텍스트 정보가 결합된 영상 문서 데이터를 생성하게 되는데, 멀티모달 분석 모델의 전처리 과정도 동일하게 이루어진다.

이렇게 생성된 영상 문서 데이터는 멀티모달 분석 모델의 학습을 위해 데이터 저장모듈(140)에 저장된다. 이때, 데이터 저장모듈(140)은 연관되는 데이터 집합에 따라 학습용 DB, 단어사전 DB, 분석용 DB 등으로 구분하여 사용할 수 있고, 각 DB를 통합하여 관리할 수도 있다.

도 7은 본 발명의 일 실시예에 따른 데이터 저장모듈 의 구조를 설명하는 도면이다.

도 7에 도시된 바와 같이, 관계형 데이터베이스(RBDMS, 141)는 텍스트 정보, 시간 정보, 수치 정보, 작은 크기의 바이너리 데이터 등의 하이레벨 특성을 갖는 데이터들을 저장하고, 스토리지(145)는 관계형 데이터베이스(141)에 저장하기 어려운 이미지 소스, 비디오 소스, 오디오 소스 등의 로우레벨 특성을 갖는 데이터를 저장한다.

데이터 저장모듈(140)은 콘텐츠 공유 플랫폼별로 데이터 구조와 DB 확장 관리의 필요성에 따라 여러 구조를 복합적으로 채택하여 사용할 수 있다. 예를 들어, 데이터 저장모듈(140)은 관계형 데이터베이스(141)를 우선적으로 사용하고, 비구조적인 데이터 관리를 위해 비관계형 데이터베이스(NoSQL, 143)를 사용할 수 있다. 또한, 데이터 저장모듈(140)은 DB 확장 노드와 백업을 위한 복제 노드(147)를 포함하고, 읽기/쓰기 동작은 데이터 객체별로 일관성 있는 응답을 주고받도록 구현될 수 있다.

비관계형 데이터베이스(143) 기반의 비구조적인 데이터를 관계형 데이터베이스(141)에 저장하는 경우, 프로세서(130)는 데이터 스키마가 존재하더라도 실제로 수집된 데이터의 필드가 있는지에 따라 관계형 데이터베이스(141)에 각 필드를 저장할지 조건분기를 처리한다. 데이터베이스의 트랙잭션을 이용하여 비구조적인 데이터를 저장하지 못할 경우에는 데이터 저장을 생략할 수 있다. 이러한 비동기 처리 논리를 수행하면, 동시 다발적인 데이터 요청 등으로 인한 데이터 수집 및 처리 등의 처리에 대한 컴퓨팅 자원을 효율적으로 사용할 수 있다.

만일, 프로세서(130)는 데이터 저장모듈(140)에 동시 다발적으로 접근하여 쓰기 요청을 하는 경우, 일시적으로 데이터 저장모듈(140)의 동시 처리 가능한 작업 한계에 도달할 수 있다. 이때, 프로세서(130)는 작업큐를 통해 수집된 데이터를 저장하고, 작업 큐에 데이터가 존재할 경우 FIFO 방식으로 데이터를 불러와 데이터 저장모듈(140)에 저장할 수 있다.

한편, 프로세서(130)는 처리해야 할 데이터 양에 따라 스케일 아웃/스케일 업(Scale out/Scale up) 등의 방법을 통해 데이터 저장모듈(140)에 데이터의 분산 처리를 수행할 수도 있고, 다수의 컴퓨팅 자원을 운용할 수 있다.

다시 도 4를 설명하면, 멀티모달 콘텐츠 분석 시스템(100)은 텍스트 분석에 기반한 멀티모달 분석 모델을 이용하여 영상 문서 데이터의 프레임별로 특성 벡터를 추출하고, 추출된 특성 벡터를 이용하여 분류기를 학습한다(S5, S6).

미디어 채널에 대한 콘텐츠 탐색을 통해 새로운 콘텐츠가 발견된 경우(S7), 학습된 멀티모달 분석 모델을 이용하여 새로운 콘텐츠에 대한 분석 결과를 제공한다(S8, S9).

즉, 멀티모달 콘텐츠 분석 시스템(100)은 영상 문서 데이터의 내용 텍스트 정보를 이용하여 콘텐츠 내용에 대한 카테고리들을 분류하고, 각 카테고리별 콘텐츠들에 대한 시청자 반응 텍스트 정보를 이용하여 빈도수에 따라 상위권의 단어들을 시청자 반응으로 설정한 후, 새로운 컨텐츠에 대해 상기 카테고리와 시청자 반응이 결합된 분석 결과를 제공한다. 따라서, 사용자들은 수많은 콘텐츠들을 일일이 살펴볼 필요없이 특정한 카테고리에 대해 레이블링함으로써 해당 카테고리 내의 콘텐츠들을 한번에 살펴볼 수 있다.

도 8은 본 발명의 일 실시예에 따른 멀티모달 분석 모델의 학습 과정을 설명하기 위한 예시도이다.

멀티모달 분석 모델은 신경망 기반의 메모리 네트워크, 순환 신경망(RNN), 팽창된 합성곱 신경망(Dilated CNN) 등을 사용하여 구현될 수 있다. 이때, 멀티모달 분석 모델은 타임 시퀀스의 길이나 시간 단위 간격의 길이에 반비례하는 총 시퀀스 데이터 길이에 따라 시퀀스 데이터를 처리하는 신경망 구조가 달라질 수 있다.

이러한 멀티모달 분석 모델은 데이터 저장모듈(140)로부터 영상 문서 데이터를 가져와 전처리 과정을 통해 학습 데이터로 변환하여 학습용 DB에 저장하고, 학습용 DB의 학습 데이터를 이용하여 분류기를 학습하게 된다.

전처리 과정은 한글 데이터의 경우에 외래어, 특정 특수 문자, 이메일 등의 불용어들을 제거하거나 다른 단어 토큰으로 치환하고, 영어 데이터의 경우 소문자로 변환한다.

멀티모달 분석 모델은 학습 데이터에 대해 형태소 분석, 어간 추출, 정규화 과정 등을 거쳐 추출되는 모든 단어들에 대해 단어사전 DB를 구축하고, 단어사전 DB에 일정 빈도수 이상 등장하는 토픽 단어들을 분석에 사용한다. 이때, 단어 사전 DB에 일정 빈도수 미만으로 등장하는 단어들은 고유명사일 확률이 높으므로 특수 토큰(Unknown token)으로 처리한다. 만일, 멀티모달 분석 모델이 문자 단위의 학습 데이터를 사용할 경우, 한글을 초성, 중성, 종성으로 분리하는 전처리 과정이 이루어지므로 고유 명사에 대해 특수 토큰으로 처리할 필요가 없어진다.

멀티모달 분석 모델은 단어사전 DB를 이용하여 토픽 단어들을 토큰으로 치환한 후 각 영상 문서 데이터에 대한 학습 과정을 수행한다. 학습 과정은 doc2vec, BERT(Bidirectional Encoder Representations from Transformers) 등의 딥러닝 기반의 자연어 처리 알고리즘을 사용한다.

word2vec 알고리즘에 기반한 doc2vec 의 PV-DBOW (Distributed Bag of Words version of Paragraph Vector), PV-DB (Distributed Memory of Paragraph Vector) 알고리즘은 특정 문서에서 어떤 단어들이 나오는지를 예측하는 훈련을 통해 그 문서가 어떤 내용인지 학습하는 것이다.

BERT의 훈련 과정 중 MLM(Masked Language Model)은 대량의 자연어 말뭉치를 이용한 비지도 학습 방법 중 하나이다. 사전 학습된 트랜스포머 인코더(Transformer Encoder)에 PV-DB알고리즘을 채용하여 문서(paragraph 또는 document) 벡터를 연결할 수 있다. 자연어 처리 모델을 MLM 등의 비지도 학습 방식으로 수집한 콘텐츠 데이터에 대해 모델을 미세 조정(Fine-tuning)한다.

도 9는 본 발명의 일 실시예에 따른 멀티모달 분석 모델의 콘텐츠 분류 과정을 설명하는 도면이고, 도 10는 도 9의 분류 결과를 설명하기 위한 예시도이다.

멀티모달 분석 모델은 학습 과정을 통해 각 콘텐츠에 대해 추출된 특성 벡터들을 거리 또는 확률에 기반을 두어 유사도를 정의하고, 이 유사성에 기초하여 전체 영상 문서 데이터에 대한 클러스터링을 통해 유사한 콘텐츠들끼리 분류한다(S110).

여기서, 클러스터링(Clustering)은 데이터 마이닝(Data mining) 기법으로서 유사 콘텐츠 검색과, 검색된 콘텐츠에 연관되는 사용자 반응을 위해 해당 콘텐츠의 특징을 추출하는 것이다.

또한, 멀티모달 분석 모델은 클러스터링 결과를 확인하기 위해 피드백 과정을 수행하고, 피드백에 따라 클러스터에 대한 재조직화를 수행한다(S120). 즉, 초기의 잘못된 클러스터링을 회복하기 위해 재정의된 중심값 기준으로 다시 거리 기반의 클러스터 재분류를 수행한 후, 클러스터간의 경계가 변경되지 않으면 클러스터링 알고리즘을 종료한다.

도 10에 도시된 바와 같이, 재조직화가 완료되면 클러스터 레이블들을 관찰하여 단계별로 레이블들을 재조직화하는 구조적 레이블링을 통해 최종적인 콘텐츠 분류가 완성되고, 이 분류 결과를 바탕으로 분류기를 생성한다(S130). 이렇게 생성된 분류기는 새로운 콘텐츠에 대해 자연어 처리 기반으로 추출된 특성 벡터를 이용하여 새로운 콘텐츠가 어떤 카테고리에 속하는지를 판별한다. 즉, 분류기는 특성 벡터를 이용하여 새로운 콘텐츠를 해당 카테고리에 할당한다.

예를 들어, 멀티모달 분석 모델은 클러스터에 10대 먹방, 20대 먹방, 30대 먹방, 중국음식 먹방, 한국음식 먹방 등의 레이블이 존재하는 경우, 구조적 레이블링을 통해 2단계의 레이블 구조를 구성할 수 있다. 즉, 최상위 레이블로 먹방을 설정한 후 하위 레이블로 각 세부 먹방 레이블을 구성한다.

콘텐츠 분류의 대상이 되는 영상 문서 데이터는 자연어로 쓰인 비구조화된 데이터이므로, 이를 처리하기 위해 구조적인 데이터로 표현할 필요가 있다. 따라서, 영상 문서 데이터를 단어사전 DB의 전체 단어를 대상으로 불용어 및 빈도수에 따른 중요도를 고려하여 구성된 특성 벡터로 표현하며, 특성 벡터내의 특성은 단어와 각 특성의 값으로 구성된다. 특성 값은 빈도수, 존재 유무 및 가중치이다.

이와 같이, 클러스터링을 통한 콘텐츠 분류는 주어진 영상 문서 데이터에 대한 사전 정보없이 의미 있는 자료구조를 찾아낼 수 있고, 짧은 계산 시간이 소요되며, 대량의 콘텐츠에 적용할 수 있다.

도 11은 본 발명의 일 실시예에 따른 멀티모달 분석 모델의 집중 알고리즘을 설명하기 위한 예시도이고, 도 12는 도 11의 집중 가중치를 이용하는 집중 알고리즘을 설명하기 위한 예시도이다.

멀티모달 분석 모델은 콘텐츠를 타임 라인 상에서 오디오, 모션, 프레임의 각 모드 데이터별로 집중 알고리즘을 적용하여, 어떤 프레임의 데이터가 다른 프레임과 연관성이 큰지를 고려해서 특성 벡터를 추출할 수 있다. 이렇게 추출된 특성 벡터를 이용하여 클러스터링 알고리즘을 수행함으로써 콘텐츠에 대한 카테고리 분류를 수행할 수 있다.

비디오의 모드 데이터인 경우, 전처리 과정을 통해 프레임 수를 1FPS 정도로 줄이고, 프레임의 화질 수를 다운샘플링한다. 이렇게 전처리 과정을 거친 비디오의 모드 데이터에 대해 자연어 처리 기반의 멀티모달 분석 모델을 이용하여 각 프레임의 특성 벡터를 추출한다.

오디오의 모드 데이터인 경우, 사전에 학습된 멀티모달 분석 모델은 각 프레임별로 특성 벡터를 추출한 후 타임 라인에 대해 압축하여 최종 특성 벡터를 추출한다.

자막의 모드 데이터인 경우, 자연어 처리 기반의 멀티모달 분석 모델을 이용하여 각 프레임의 특성 벡터를 추출한다.

집중 알고리즘은 모드 데이터별 특성 벡터들에 대해 하나의 특성 벡터와 다른 특성 벡터들 사이의 관련성을 결정짓는 파라미터를 학습시키게 된다.

도 12에 도시된 바와 같이, 집중 알고리즘을 통한 집중 가중치를 이용하여 'it'이라는 대명사를 분석할 때, it이 가리키는 'animal'이라는 단어에 집중해서 분석을 수행한다. 즉, 윗 문장과 아래 문장에서 it이 가리키는 단어가 서로 다르지만, 집중 알고리즘 중 자가 집중 알고리즘을 통해서 진한 푸른색으로 표기되어 있는 ‘animal’과 ‘street’ 에 적절히 더 가중치를 주고 있다는 것을 알 수 있다.

이와 같이, 멀티모달 콘텐츠 분석 모델은 집중 알고리즘을 통해 타임 스탬프 내에서 모드 데이터별 연관성이나 전체 타임 라인 내에서 다른 타임 스탬프에 있는 데이터 사이의 연관성을 고려할 수 있다.

도 13은 본 발명이 일 실시예에 따른 멀티모달 분석 모델의 분석 결과를 설명하기 위한 예시도이다.

도 13에 도시된 바와 같이, 멀티모달 분석 모델은 새로운 콘텐츠를 분석하여 콘텐츠 내용에 대해 시청자 반응이 결합된 정보를 분석 결과로 제공한다. 콘텐츠의 메타데이터(제목, 설명, 카테고리 등)들을 레이블 데이터로 지정함으로써 멀티모달 분석 모델은 각 콘텐츠에 대한 메타 데이터를 맞추는 방식으로 학습되고, 콘텐츠를 분석할 수 있다.

예를 들어, 새로운 콘텐츠(viedo 1)의 카테고리가 스토리텔링 형식의 감동적인 이야기인 경우, 해당 카테고리에 대한 시청자 반응이 '감동받는','연민하는'이 될 수 있다.

따라서, 사용자 또는 콘텐츠 공유 플랫폼 사업자들은 수많은 콘텐츠들을 일일이 살펴볼 필요없이 특정한 카테고리에 대해 레이블링 함으로써 유사한 콘텐츠들과 시청자 반응을 한번에 확인할 수 있다.

이상에서 설명한 본 발명의 실시예에 따른 멀티모달 콘텐츠 분석 방법은, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 이러한 기록 매체는 컴퓨터 판독 가능 매체를 포함하며, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 멀티모달 콘텐츠 분석 시스템
110: 통신 모듈 120: 메모리
130: 프로세서 140: 데이터 저장모듈
150: 표시 모듈

Claims

미디어 채널을 통해 업로드된 콘텐츠를 분석하는 멀티모달 콘텐츠 분석 시스템에 의해 수행되는 멀티모달 콘텐츠 분석 방법에 있어서,
a) 상기 미디어 채널을 통해 콘텐츠 공유 서비스를 제공하는 적어도 하나 이상의 콘텐츠 공유 플랫폼으로부터 오디오, 비디오, 자막 및 메타데이터를 포함한 콘텐츠들을 수집하는 단계;
b) 상기 수집된 콘텐츠들을 자연어 처리 기반의 전처리를 통해 각 콘텐츠에 대한 맥락을 포함하는 내용 텍스트 정보와 시청자의 게시 반응을 포함하는 사용자 반응 텍스트 정보가 결합된 영상 문서 데이터로 각각 생성하는 단계;
c) 텍스트 분석에 기반한 멀티모달 분석 모델을 이용하여 상기 영상 문서 데이터의 프레임별로 특성 벡터를 추출하고, 상기 추출된 특성 벡터를 이용하여 콘텐츠 분류를 위한 분류기를 학습하는 단계; 및
d) 상기 미디어 채널에 대한 콘텐츠 탐색을 통해 새로운 콘텐츠가 발견된 경우, 상기 학습된 멀티모달 분석 모델을 이용하여 새로운 콘텐츠에 대한 분석 결과를 제공하는 단계를 포함하되,
상기 멀티모달 분석 모델은,
상기 특성 벡터간의 유사성에 기초하여 전체 영상 문서 데이터를 K개의 그룹으로 분류하는 클러스터링 알고리즘을 통해 생성된 분류기를 학습하고, 상기 학습된 분류기가 새로운 콘텐츠에서 추출된 특성 벡터를 이용하여 기 정의된 카테고리(category)에 자동으로 분류하는 것인, 멀티모달 콘텐츠 분석 방법.
제 1 항에 있어서,
상기 a) 단계는, 상기 수집된 콘텐츠에 대한 로그 정보를 저장하고,
상기 d) 단계는, 상기 저장된 로그 정보를 이용하여 이미 탐색된 콘텐츠를 제외한 후 새로운 콘텐츠를 탐색하는 것인, 멀티모달 콘텐츠 분석 방법.
제 1 항에 있어서,
상기 내용 텍스트 정보는,
해당 콘텐츠의 비디오 데이터, 오디오 데이터 및 자막 데이터 중 적어도 하나 이상을 포함하고,
상기 사용자 반응 텍스트 정보는,
해당 콘텐츠의 제목, 설명, 태그, 조회수, 노출수, 노출 대비 클릭수, 긍정/부정 평가 수, 업로드 시간, 썸네일, 댓글, 시청자 잔류율, 시청 시간 또는 시청자 인구 통계 정보를 포함한 메타데이터 중 적어도 하나 이상을 포함하는 것인, 멀티모달 콘텐츠 분석 방법.
제 1 항에 있어서,
상기 a) 단계는,
상기 수집된 콘텐츠들 중 텍스트 정보, 시간 정보, 수치 정보를 포함한 하이레벨(High-level) 특성을 갖는 데이터들을 관계형 데이터베이스에 저장하고,
상기 수집된 콘텐츠들의 이미지 데이터, 비디오 데이터, 오디오 데이터를 포함한 로우 레벨 (Low-level) 특성을 갖는 데이터들을 스토리지에 저장하는 것인, 멀티모달 콘텐츠 분석 방법.
제 4 항에 있어서,
상기 관계형 데이터베이스 또는 스토리지에 적어도 하나 이상의 데이터 쓰기 요청이 동시에 발생하는 경우, 작업큐를 이용하여 데이터 쓰기 요청에 의한 데이터들을 저장한 후 선입선출(FIFO) 방식으로 상기 작업큐에서 데이터를 불러와 저장하는 것인, 멀티모달 콘텐츠 분석 방법.
제 1 항에 있어서,
상기 c) 단계는,
상기 영상 문서 데이터로부터 적어도 하나 이상의 단어들을 추출하고, 상기 추출된 단어들에 대한 불용어 처리, 어간 추출, 정규화를 포함한 자연어 처리 분석을 통해 토픽 단어들을 추출 한 후 상기 토픽 단어들을 이용하여 단어사전 데이터베이스를 제공하는 것인, 멀티모달 콘텐츠 분석 방법.
제 5 항에 있어서,
상기 멀티모달 분석 모델은 상기 단어사전 데이터베이스에 저장된 토픽 단어들 중 기설정된 빈도수 이상의 토픽 단어들을 토큰으로 치환하여 각 영상 문서 데이터에 대한 학습을 수행하되,
기설정된 빈도수 미만의 토픽 단어들을 특수 토큰(Unknown token)으로 처리하는 것인, 멀티모달 콘텐츠 분석 방법.
제 1 항에 있어서,
상기 멀티모달 분석 모델은,
상기 영상 문서 데이터를 오디오, 모션, 프레임을 포함한 모드 데이터로 구분하고, 상기 모드 데이터별로 집중(Attention) 알고리즘을 적용하여 프레임간의 연관성을 고려한 특성 벡터를 추출하되,
상기 집중 알고리즘은, 하나의 특성 벡터와 연관되는 다른 특성 벡터에 집중 가중치를 부여하여 집중 분석하는 것인, 멀티모달 콘텐츠 분석 방법.
제 8 항에 있어서,
상기 집중 알고리즘은 상기 콘텐츠의 타임 스탬프 내 모드 데이터간의 연관성을 고려한 특성 벡터를 추출하는 방식 또는 전체 타임 라인 내에서 다른 타임 스탬프의 모드 데이터간 연관성을 고려한 특성 벡터를 추출하는 방식 중 어느 하나의 방식을 사용하는 것인, 멀티모달 콘텐츠 분석 방법.
제 1 항에 있어서,
상기 클러스터링 알고리즘은,
각 콘텐츠에 대해 추출된 특성 벡터들을 거리 또는 확률에 기반하여 유사도를 정의하는 단계;
상기 정의된 유사성에 기초하여 전체 영상 문서 데이터에 대한 클러스터링을 통해 유사한 콘텐츠들끼리 분류하여 K개의 클러스터를 형성하는 단계;
상기 거리 또는 확률에 기반하여 K개의 클러스터를 재분류하여 재조직화를 수행하는 단계;
상기 재조직화를 통해 클러스터간 경계가 변경되지 않는 경우, 상기 클러스터 레이블들을 단계별로 재조직화하는 구조적 레이블링을 통해 최종 콘텐츠 분류를 완료하는 단계를 포함하는 것인, 멀티모달 콘텐츠 분석 방법.
제 1 항에 있어서,
상기 멀티모달 분석 모델은,
상기 내용 텍스트 정보를 이용하여 콘텐츠 내용에 대한 카테고리들을 분류하고,
각 카테고리별 콘텐츠들에 대한 시청자 반응 텍스트 정보를 이용하여 빈도수에 따라 상위권의 단어들을 시청자 반응으로 설정하고,
새로운 컨텐츠에 대해 상기 카테고리와 시청자 반응이 결합된 분석 결과를 제공하는 것인, 멀티모달 콘텐츠 분석 방법.
제 1 항에 있어서,
상기 c) 단계는,
ELMO (Embeddings from Language Models), BERT(Bidirectional Encoder Representations from Transformers), 빅버드(Big Bird), GPT(Generative Pre-Training), MLM(Masked Language Model)를 포함한 자연어 처리 모델에 기반한 다중 학습 알고리즘을 이용하여 특성 벡터를 학습하는 것인, 멀티모달 콘텐츠 분석 방법.
미디어 채널을 통해 업로드된 콘텐츠를 분석하는 멀티모달 콘텐츠 분석 시스템에 있어서,
멀티모달 콘텐츠 분석 방법을 수행하기 위한 프로그램이 기록된 메모리; 및
상기 프로그램을 실행하기 위한 프로세서를 포함하며,
상기 프로세서는, 상기 프로그램의 실행에 의해,
상기 미디어 채널을 통해 콘텐츠 공유 서비스를 제공하는 적어도 하나 이상의 콘텐츠 공유 플랫폼으로부터 오디오, 비디오, 자막 및 메타데이터를 포함한 콘텐츠들을 수집하고,
상기 수집된 콘텐츠들을 자연어 처리 기반의 전처리를 통해 각 콘텐츠에 대한 맥락을 포함하는 내용 텍스트 정보와 시청자의 게시 반응을 포함하는 사용자 반응 텍스트 정보가 결합된 영상 문서 데이터로 각각 생성하고,
텍스트 분석에 기반한 멀티모달 분석 모델을 이용하여 상기 영상 문서 데이터의 프레임별로 특성 벡터를 추출하고, 상기 추출된 특성 벡터를 이용하여 콘텐츠 분류를 위한 분류기를 학습하고,
상기 미디어 채널에 대한 콘텐츠 탐색을 통해 새로운 콘텐츠가 발견된 경우, 상기 학습된 멀티모달 분석 모델을 이용하여 새로운 콘텐츠에 대한 분석 결과를 제공하되,
상기 멀티모달 분석 모델은,
상기 특성 벡터간의 유사성에 기초하여 전체 영상 문서 데이터를 K개의 그룹으로 분류하는 클러스터링 알고리즘을 통해 생성된 분류기를 학습하고, 상기 학습된 분류기가 새로운 콘텐츠에서 추출된 특성 벡터를 이용하여 기 정의된 카테고리(category)에 자동으로 분류하는 것인, 멀티모달 콘텐츠 분석 시스템.