KR102376201B1

KR102376201B1 - 멀티미디어 지식 베이스 구축 시스템 및 방법

Info

Publication number: KR102376201B1
Application number: KR1020170043864A
Authority: KR
Inventors: 강규창; 권용진; 문진영; 박경; 박종열; 배유석; 오성찬; 이전우
Original assignee: 한국전자통신연구원
Priority date: 2017-04-04
Filing date: 2017-04-04
Publication date: 2022-03-18
Also published as: US20180285744A1; KR20180112590A

Abstract

멀티미디어 지식 베이스 구축 시스템은 멀티미디어 정보 검출부를 통해 텍스트, 음성, 영상 및 비디오 중 하나 이상의 조합으로 구성된 멀티미디어 데이터로부터 텍스트화된 메타 정보를 검출하고, 지식 베이스 정형화부를 상기 텍스트화된 메타 정보와 상기 멀티미디어 데이터의 컨텍스트 정보를 이용하여 상기 멀티미디어 데이터를 외재적 구성 정보를 나타내는 구문론적 정보와 내재적 의미 정보를 나타내는 의미론적 정보로 나누어 멀티미디어 지식으로 정형화한다.

Description

멀티미디어 지식 베이스 구축 시스템 및 방법{SYSTEM AND METHOD FOR GENERATING MULTIMEDIA KNOWLEDGE BASE}

본 발명은 멀티미디어 지식 베이스 구축 시스템 및 방법에 관한 것으로, 상세하게는 멀티미디어 데이터로부터 메타 정보를 추출하고 정형화하여 지식 베이스로 구축하는 멀티미디어 지식 베이스 구축 시스템 및 방법에 관한 것이다.

전 세계적으로 스마트폰, 디지털 카메라와 같은 개인용 촬영장치를 이용한 멀티미디어 데이터뿐만 아니라 다양한 CCTV(Closed Circuit Television), 자동차용 블랙박스, 드론 등을 통한 멀티미디어 데이터가 폭발적으로 증가하고 있다. 하지만 생성되는 멀티미디어 데이터 양이 방대하여 사용자가 일일이 멀티미디어 데이터에 태깅을 하거나 멀티미디어 데이터를 요약하여 저장하고, 이후에 이를 검색하는데 많은 시간과 노력이 요구된다. 이런 이유로, 멀티미디어 검색 및 분석을 보다 빠르고 정확하게 제공하기 위한 다양한 방법들이 연구되고 있다.

한편, 기존의 영상 콘텐츠 추천 시스템에서는 영상 콘텐츠의 메타 정보들 간의 연관성을 분석하여 메타 정보들 상호간의 관계를 표현하는 온톨로지를 구축하고, 이 온톨로지를 기반으로 메타 정보들간의 연관성, 유사성, 사용자 선호도, 가중치, 감정 상태 등을 통해 사용자에게 영상 콘텐츠를 추천하는 방법을 제시하고 있다. 그러나 이 방법은 화상 또는 비디오에 내재된 구체적인 정보 수준의 검색이 어렵다는 단점이 있다.

기존의 다른 화상 및 비디오 검색 시스템에서는 화상 및 비디오를 데이터베이스로부터 간편하게 검색하기 위하여, 데이터베이스를 비주얼 템플릿의 모음을 이용하여 색인하는 방법을 사용하였다.

본 발명이 해결하려는 과제는 멀티미디어 데이터에 대한 빠른 검색을 지원할 수 있는 멀티미디어 지식 베이스 구축 시스템 및 방법을 제공하는 것이다.

본 발명의 한 실시 예에 따르면, 텍스트, 음성, 영상 및 비디오 중 하나 이상의 조합으로 구성된 멀티미디어 데이터로부터 멀티미디어 지식 베이스를 구축하는 시스템이 제공된다. 멀티미디어 지식 베이스 구축 시스템은 멀티미디어 정보 검출부, 그리고 지식 베이스 정형화부를 포함한다. 상기 멀티미디어 정보 검출부는 입력되는 멀티미디어 데이터로부터 텍스트화된 메타 정보를 검출한다. 그리고 상기 지식 베이스 정형화부는 상기 텍스트화된 메타 정보와 상기 멀티미디어 데이터의 컨텍스트 정보를, 외재적 구성 정보를 나타내는 구문론적 정보와 내재적 의미 정보를 나타내는 의미론적 정보로 나누어 멀티미디어 지식으로 정형화한다.

상기 지식 베이스 정형화부는 상기 텍스트화된 메타 정보와 상기 멀티미디어 데이터의 컨텍스트 정보를 이용하여 상기 멀티미디어 데이터를 5W1H 형식의 멀티미디어 지식으로 정형화할 수 있다.

상기 구문론적 정보는 상기 멀티미디어 데이터를 생성한 소스원 정보, 상기 소스원에 의해 생성된 멀티미디어 데이터의 정보 및 상기 멀티미디어 데이터를 구성하는 의미 영역에서 추출된 객체 검출 정보를 포함할 수 있다.

상기 의미론적 정보는 상기 멀티미디어 데이터를 구성하는 의미 영역에 내재된 이벤트 정보, 상기 이벤트 정보를 구성하는 상황 정보를 포함하고, 상기 이벤트 정보를 구성하는 상황 정보는 적어도 상기 이벤트의 동작주와 상기 이벤트의 피동작주를 포함할 수 있다.

상기 멀티미디어 지식 베이스 구축 시스템은 상기 멀티미디어 지식을 저장하는 지식 베이스 DB(database), 그리고 상기 지식 베이스 DB를 모델링하여 상기 멀티미디어 지식을 검색에 최적화된 구조로 변환하여 관리하는 지식 베이스 관리부를 더 포함할 수 있다.

상기 멀티미디어 지식 베이스 구축 시스템은 상기 사용자로부터 멀티미디어 데이터에 대한 검색 요청을 처리하는 사용자 인터페이스를 더 포함할 수 있다.

상기 사용자 인터페이스는 자연어, 텍스트, 영상, 동영상 중 적어도 하나의 검색 요청 정보로부터 5W1H의 형식의 검색 요청 정보를 추출하고, 상기 5W1H의 형식의 검색 요청 정보를 상기 지식 베이스 관리부로 전달하고, 상기 지식 베이스 관리부는 상기 5W1H의 형식의 검색 요청 정보를 토대로 상기 지식 베이스 DB를 검색하여 그 결과를 상기 사용자 인터페이스로 전달할 수 있다.

상기 사용자 인터페이스는 검색된 멀티미디어 데이터에 대한 링크를 제공하고, 상기 사용자가 상기 링크를 선택하는 경우 상기 검색된 멀티미디어 데이터를 재생할 수 있다.

상기 멀티미디어 정보 검출부는 음성 입력을 텍스트로 변환하여 상기 음성 입력에 포함된 객체나 행위를 추출하는 PoS(Part of Speech) 검출기, 영상 입력으로부터 문자를 추출하는 OCR(Optical Character Recognition) 검출기, 영상 또는 동영상 입력으로부터 상기 영상 또는 동영상 입력에 포함된 객체나 행위를 추출하는 PoV(Part of Visuals) 검출기, 그리고 영상 또는 동영상 입력으로부터 텍스트 문장을 추출하는 VtS(Visuals to Sentence) 검출기 중 적어도 하나를 포함할 수 있다.

상기 멀티미디어 정보 검출부는 필요한 메타 정보에 따라 상기 PoS 검출기, 상기 OCR 검출기, 상기 PoV 검출기 및 상기 VtS 검출기를 독립적으로 또는 조합하여 동작시키는 제어부를 더 포함할 수 있다.

상기 멀티미디어 지식 베이스 구축 시스템은 상기 멀티미디어 정보 검출부의 각 검출기의 입력 명세에 맞게 상기 멀티미디어 데이터를 전처리하여 상기 각 검출기로 전달하는 전처리부를 더 포함할 수 있다.

상기 지식 베이스 정형화부는 상기 텍스트화된 메타 정보가 상기 멀티미디어 지식의 표현 형식에 부합하지 않는 경우, 사전 구축된 규칙 및 용어 기반 지식 온톨로지를 이용하여 가장 유사도가 높은 용어로 추론 및 변경하여 멀티미디어 지식으로 정형화할 수 있다.

본 발명의 다른 한 실시 예에 따르면, 멀티미디어 지식 베이스 구축 시스템에서 텍스트, 음성, 영상 및 비디오 중 하나 이상의 조합으로 구성된 멀티미디어 데이터로부터 멀티미디어 지식 베이스를 구축하는 방법이 제공된다. 멀티미디어 지식 베이스 구축 방법은 입력되는 멀티미디어 데이터로부터 텍스트화된 메타 정보를 검출하는 단계, 상기 텍스트화된 메타 정보와 상기 멀티미디어 데이터의 컨텍스트 정보를 이용하여 외재적 구성 정보를 나타내는 구문론적 정보의 멀티미디어 지식과 내재적 의미 정보를 나타내는 의미론적 정보의 멀티미디어 지식으로 분류하여 정형화하는 단계, 그리고 상기 멀티미디어 지식을 지식 베이스 DB(database)에 저장하는 단계를 포함할 수 있다.

상기 정형화하는 단계는 상기 의미론적 정보의 멀티미디어 지식을 5W1H 형식으로 표현하는 단계를 포함할 수 있다.

상기 정형화하는 단계는 상기 텍스트화된 메타 정보가 상기 멀티미디어 지식의 표현 형식에 부합하지 않는 경우, 사전 구축된 규칙 및 용어 기반 지식 온톨로지를 이용하여 가장 유사도가 높은 용어로 추론 및 변경하는 단계, 그리고 상기 추론 및 변경된 용어를 상기 멀티미디어 지식으로 정량화하는 단계를 포함할 수 있다.

상기 멀티미디어 지식 베이스 구축 방법은 상기 지식 베이스 DB를 모델링하여 상기 멀티미디어 지식을 검색에 최적화된 구조로 변환하여 저장하는 단계를 더 포함할 수 있다.

상기 멀티미디어 지식 베이스 구축 방법은 사용자로부터 자연어, 텍스트, 영상, 동영상 중 적어도 하나의 검색 요청 정보를 수신하면, 상기 검색 요청 정보로부터 5W1H의 형식의 검색 요청 정보를 추출하는 단계, 상기 5W1H의 형식의 검색 요청 정보를 토대로 상기 지식 베이스 DB를 검색하는 단계, 그리고 검색 결과를 사용자에게 제공하는 단계를 더 포함할 수 있다.

상기 검출하는 단계는 상기 멀티미디어 데이터로부터 서로 다른 메타 정보를 검출하는 적어도 하나의 검출기로부터 검출되는 메타 정보를 획득하는 단계를 포함하고, 상기 적어도 하나의 검출기는 음성 입력을 텍스트로 변환하여 상기 음성 입력에 포함된 객체나 행위를 추출하는 PoS(Part of Speech) 검출기, 영상 입력으로부터 문자를 추출하는 OCR(Optical Character Recognition) 검출기, 영상 또는 동영상 입력으로부터 상기 영상 또는 동영상 입력에 포함된 객체나 행위를 추출하는 PoV(Part of Visuals) 검출기, 그리고 영상 또는 동영상 입력으로부터 텍스트 문장을 추출하는 VtS(Visuals to Sentence) 검출기 중 적어도 하나를 포함할 수 있다.

본 발명의 실시 예에 의하면, 음성, 영상, 비디오 등의 조합으로 구성되는 멀티미디어 데이터에 대해 언어분석, 영상 분석, 비디오 분석 등의 검출기를 조합 사용하여 멀티미디어에 내포된 메타 정보를 추출함으로써, 다양한 메타 정보 추출이 가능하고, 추출된 다양한 메타 정보를 5W1H(who, what, where, when, why, how) 형식으로 매핑하여 지식 베이스로 구축하므로 멀티미디어 요약 인덱싱이 가능하다. 또한 구축된 멀티미디어 지식 베이스를 기반으로 텍스트, 자연어, 영상, 비디오 기반 검색 기능을 용이하게 제공할 수 있다.

도 1은 본 발명의 한 실시 예에 따른 멀티미디어 지식 베이스 구축 시스템을 나타낸 도면이다.
도 2는 도 1에 도시된 멀티미디어 정보 검출부의 일 예를 나타낸 도면이다.
도 3은 본 발명의 실시 예에 따른 멀티미디어 지식 베이스 구축 시스템에서 멀티미디어 지식 베이스를 구축하는 방법을 나타낸 흐름도이다.
도 4는 본 발명의 실시 예에 따른 멀티미디어 지식 베이스 구축 시스템의 입력 데이터의 일 예를 나타낸 도면이다.
도 5는 본 발명의 실시 예에 따른 OCR 검출기에서 도 4에 도시된 입력 데이터로부터 추출한 메타 정보의 일 예를 나타낸 도면이다.
도 6은 본 발명의 실시 예에 따른 지식 베이스 정형화부에서 지식 베이스를 생성하는 일 예를 나타낸 도면이다.
도 7은 도 1에 도시된 사용자 인터페이스를 나타낸 도면이다.
도 8은 본 발명의 실시 예에 따른 멀티미디어 지식 베이스 구축 시스템의 다른 일 예를 나타낸 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

이제 본 발명의 실시 예에 따른 멀티미디어 지식 베이스 구축 시스템 및 방법에 대하여 도면을 참고로 하여 상세하게 설명한다.

도 1은 본 발명의 한 실시 예에 따른 멀티미디어 지식 베이스 구축 시스템을 나타낸 도면이고, 도 2는 도 1에 도시된 멀티미디어 정보 검출부의 일 예를 나타낸 도면이다.

도 1을 참고하면, 멀티미디어 지식 베이스 구축 시스템(100)은 입력부(110), 전처리부(120), 멀티미디어 정보 검출부(130), 지식 베이스 정형화부(140), 지식 베이스 관리부(150), 지식 베이스 DB(database)(160) 및 원본 멀티미디어 아카이브(170)를 포함한다. 멀티미디어 지식 베이스 구축 시스템은 사용자 인터페이스(180)를 더 포함할 수 있다.

입력부(110)는 입력 데이터를 수신하고, 수신한 입력 데이터를 전처리부(120)로 전달한다. 입력부(110)는 수신한 입력 데이터를 원본 멀티미디어 아카이브(170)에 저장할 수 있다. 본 발명의 실시 예에서 입력 데이터는 텍스트, 음성, 영상(image), 비디오 등의 조합으로 구성되는 멀티미디어 데이터일 수 있다. 멀티미디어 데이터는 데이터 소스의 특징에 따라 음성, 영상, 비디오 중 적어도 일부만을 포함할 수 있다. 예를 들어, 스마트폰과 같은 단말 장치로부터 촬영된 멀티미디어 데이터는 음성 및 동영상을 포함할 수 있고, CCTV로 촬영된 멀티미디어 데이터는 동영상만을 포함할 수 있다. 주기적으로 특정 영역을 정지 영상으로 촬영한 경우, 멀티미디어 데이터는 영상 시퀀스를 포함할 수 있다.

전처리부(120)는 다양한 소스의 입력 데이터에 대해 멀티미디어 정보 검출부(130)의 각 검출기의 입력에 맞도록 샘플링, 크기변경 등의 전처리를 수행하고, 전처리된 데이터를 멀티미디어 정보 검출부(130)의 각 검출기로 전달한다. 예를 들면, 전처리부(120)는 입력 데이터가 초당 30 프레임으로 입력되는 동영상인 경우, 초당 프레임 수를 변경할 수 있고, 멀티미디어 정보 검출부(130)의 각 검출기의 입력 명세에 따라 동적으로 입력 데이터의 크기를 변경할 수 있다. 또한 전처리부(120)는 입력 데이터의 컨텍스트 정보를 지식 베이스 정형화부(140)로 전달한다.

멀티미디어 정보 검출부(130)는 전처리된 데이터를 토대로 요구되는 메타 정보를 추출한다.

도 2를 보면, 멀티미디어 정보 검출부(130)는 제어부(131), PoS(Part of Speech) 검출기(132), OCR(Optical Character Recognition) 검출기(133), PoV(Part of Visuals) 검출기(134) 및 VtS(Visuals to Sentence) 검출기(135)를 포함할 수 있다. 도 2에서는 PoS 검출기(132), OCR 검출기(133), PoV 검출기(134) 및 VtS 검출기(135)만을 도시하였으나, 요구되는 메타 정보에 따라 다른 제3자 검출기가 추가적으로 사용될 수 있다.

제어부(131)는 전처리부(120)에 의해 전처리된 데이터를 해당하는 검출기로 전달하고, 해당하는 검출기로부터 추출된 메타 정보를 지식 베이스 정형화부(140)로 전달한다.

PoS 검출기(132)는 입력 데이터가 음성을 포함하는 경우, 음성을 텍스트로 변환하여 텍스트 기반 품사 분석을 통해 입력 데이터에 포함된 객체(명사)나 행동/행위(동사)를 추출한다. 즉 PoS 검출기(132)는 음성 신호로부터 얻은 텍스트에서 의미역 분석과 같은 텍스트 마이닝 기법을 이용하여 대화 내용을 명사나 동사 기반으로 인식할 수 있다. 부가적으로, PoS 검출기(132)는 텍스트로 직접 변환이 불가능한 음성 신호의 경우에는 기차 소리 인식, 자동차 소리 인식 등과 같이 별도의 상황 정보로 메타 정보를 추출할 수 있다. PoS 검출기(132)에 의해 추출되는 메타 정보는 표 1과 같다.

OCR 검출기(133)는 입력 데이터가 동영상에서 추출한 프레임이나 영상일 경우, 영상 상에 존재하는 문자를 추출한다. 예를 들어, OCR 검출기(133)는 영상에 등장한 차량번호나 도로표지판 등을 인식할 수 있다. 이와 같이 인식된 차량번호는 입력 데이터에서 검출하는 자동차의 속성 값으로 사용될 수 있고, 인식된 도로표지판은 입력 데이터를 설명하는 상황 정보로 사용될 수 있다. OCR 검출기(133)에 의해 추출되는 메타 정보는 표 2와 같다.

PoV 검출기(134)는 입력 데이터가 영상 또는 동영상일 경우 CNN(Convolutional Neural Network)이나 RNN(Recurrent Neural Network)과 같은 신경망이나 기계학습 기법을 통해 객체(명사) 및 행동/행위(동사)를 추출한다. 예를 들어, PoV 검출기(134)는 각 영상이나 영상 프레임 또는 연결된 영상 및 영상 프레임에서 사물(명사)이나 이벤트(동사) 정보 등을 검출할 수 있다. PoV 검출기(134)에 의해 추출되는 메타 정보는 표 3과 같다.

VtS 검출기(135)는 입력 데이터가 영상 또는 동영상일 경우 신경망이나 기계학습 기법을 통해 입력 데이터를 텍스트 문장으로 자동 변환 및 추출한다. 예를 들어, VtS 검출기(135)는 입력 데이터가 영상인 경우 영상 캡셔닝 기법 등을 통해 문장을 추출할 수 있고, 입력 데이터가 동영상일 경우 CNN과 RNN등을 통해 문장을 추출할 수 있다. VtS 검출기에 의해 추출되는 메타 정보는 표 4와 같다.

제어부(131)는 요구되는 메타 정보의 검출 기능에 따라 PoS 검출기(132), OCR 검출기(133), PoV 검출기(134) 및 VtS 검출기(135)를 독립적으로 또는 다양하게 조합 구성하여 사용할 수 있도록 한다. 예를 들어, OCR 검출기(133)는 검출을 위한 영역 결정을 위해 PoV 검출기(134)와 연동함으로써, 차량과 같은 관심 객체의 영역 정보를 공유할 수 있다. 또한 PoV 검출기(134)는 OCR 검출기(133)와 연동함으로써, 내부적으로 인식한 차량번호를 OCR 검출기(133)로부터 추출된 차량의 속성으로 사용할 수 있다.

이러한 PoS 검출기(132), OCR 검출기(133), PoV 검출기(134) 및 VtS 검출기(135)는 하나의 시스템에서 중앙집중식으로 운용될 수도 있고, 논리적으로 서로 다른 머신에 분산 설치되어 운용되고 그 결과를 상호 공유할 수 있다.

지식 베이스 정형화부(140)는 스키마와 같은 멀티미디어 지식 표현 형식을 정의하고, 멀티미디어 정보 검출부(130)의 각 검출기(132~135)로부터 검출된 메타 정보와 전처리부(120)로부터 수신한 입력 데이터의 컨텍스트 정보를 동적으로 융합/합성하여 멀티미디어 지식 표현 형식에 따라 멀티미디어 지식으로 정형화한다. 지식 베이스 정형화부(140)는 멀티미디어 정보 검출부(130)의 각 검출기(132~135)로부터 검출된 메타 정보가 멀티미디어 지식 표현 형식에 부합하지 않을 경우, 사전 구축된 규칙(semantic rule) 및 용어(lexicon) 기반 지식 온톨로지를 이용하여 가장 유사도가 높은 용어로 추론 및 변경하여 멀티미디어 정보 검출부(130)의 각 검출기(132~135)로부터 검출된 메타 정보를 멀티미디어 지식으로 정형화할 수 있다. 사전 구축된 규칙(semantic rule) 및 용어(lexicon) 기반 지식 온톨로지는 텍스트 및 비디오 코퍼스를 기반으로 언어학적 모델 관점에서 전통적인 텍스트마이닝 기법을 통해 별도로 구축되어 사용될 수 있다.

본 발명의 실시 예에 따르면, 사전 정의된 멀티미디어 지식 표현은 구문론적(Syntactic) 정보와 의미론적(Semantic) 정보로 크게 나눌 수 있다. 구문론적 정보는 멀티미디어 데이터의 외재적 구성 정보를 나타낸다. 의미론적 정보는 멀티미디어 데이터의 내재적 의미 정보를 나타낸다. 예를 들면, 구문론적 정보와 의미론적 정보는 표 5와 같이 나타낼 수 있다.

지식 베이스 정형화부(140)는 멀티미디어 지식을 XML(Extensible Markup Language)과 같은 마크업 언어나, JSON(JavaScript Object Notation)과 같은 데이터 포맷으로 표현하여 저장 및 교환할 수 있다.

지식 베이스 관리부(150)는 지식 베이스 정형화부(140)에서 생성한 멀티미디어 지식을 DB 모델링을 통해 타겟 서비스에 최적화된 형태의 계층적인 구조로 변환하여 지식 베이스 DB(160)에 저장 및 관리한다. 예를 들어, 지식 베이스 관리부(150)는 이벤트 검색이 핵심인 서비스의 경우, 이벤트 검색이 용이하게 프라이머리 키(primary key)로 이벤트 식별자(ID)를 사용할 수 있다. 지식 베이스 관리부(150)는 객체들의 관계까지 검색할 필요가 있는 서비스의 경우 프라이머리 키로 객체 식별자를 사용하고 객체간 관계를 인덱싱하여 검색 성능을 높일 수 있다. 또한 지식 베이스 관리부(150)는 사용자 인터페이스(180)를 통해 사용자로부터 멀티미디어 데이터의 검색 요청에 따라 지식 베이스 DB(160)를 검색한다.

지식 베이스 관리부(150)는 지식 베이스 DB(160)를 하나의 머신에 구축하여 중앙집중식으로 관리할 수도 있고 물리적으로 분산 배치하여 분산 데이터베이스 형태로 저장 및 관리할 수 있다.

지식 베이스 DB(160)는 검색에 최적화된 형태의 멀티미디어 지식을 저장한다.

원본 멀티미디어 아카이브(170)는 입력 데이터에 해당하는 멀티미디어 데이터를 저장한다.

사용자 인터페이스(180)는 사용자와의 인터페이스를 제공하며, 멀티미디어 지식 베이스로 구축된 지식 베이스 DB(160)로부터 사용자의 멀티미디어 데이터에 대한 검색을 지원한다.

그러면, 본 발명의 실시 예에 따른 멀티미디어 지식 베이스 구축 시스템에서 HD(High Definition)급 CCTV로 녹화된 비디오 영상을 입력 데이터로 하여 멀티미디어 지식 베이스를 구축하는 방법에 대해서 도 3 내지 도 5를 참고로 하여 자세하게 설명한다.

도 3은 본 발명의 실시 예에 따른 멀티미디어 지식 베이스 구축 시스템에서 멀티미디어 지식 베이스를 구축하는 방법을 나타낸 흐름도이고, 도 4는 본 발명의 실시 예에 따른 멀티미디어 지식 베이스 구축 시스템의 입력 데이터의 일 예를 나타낸 도면이다.

도 3을 참고하면, 위도와 경도가 각각 35.22도 및 126.83도에 위치한 학생회관에 설치된 ID가 'Cam 1' 인 카메라에서 촬영된 비디오 스트림 중 스트림 ID가 'Stream2016-1234'인 2016년 11월 30일 오후 3시에 촬영된 비디오 영상이 입력 데이터로서 입력부(110)로 입력된다(S302). 즉 도 4에 도시한 바와 같은 입력 데이터가 입력부(110)로 입력된다. 이 비디오 영상의 해상도는 (1024*768)이고 해당 비디오 영상은 원본 멀티미디어 아카이브(170)의'/cam1/stream2016-1234' 디렉토리에 저장되어 있다. 이 비디오 영상의 참값(ground truth)은 사람(person)이 오후 3시에 학생회관 정면에 있는 차(car)에서 무엇인가를 내리고 있다는 것이다. 이 참값은 멀티미디어 지식 베이스 구축 시스템(100)이 검출한 메타 정보가 얼마나 정확한지 평가할 때 비교 기준이 되는 실제 참값이다.

입력부(110)로 입력된 비디오 영상은 전처리부(120)로 전달된다. 전처리부(120)는 멀티미디어 정보 검출부(130)의 각 검출기(132~135)의 입력 명세에 맞게 입력된 비디오 영상을 전처리한다(S304).

설명의 편의를 위해, PoS 검출기(132)와 VtS 검출기(135)는 사용되지 않으며, 입력 데이터 및 활용 가능한 검출기의 제약 조건에 따라 OCR 검출기(133)와 PoV 검출기(134)만 동작하는 것으로 설명한다. 또한 OCR 검출기(133)는 PoV 검출기(134)와 연동하지 않는 것으로 가정한다. 전처리부(120)는 OCR 검출기(133)의 입력 명세에 맞게 입력된 영상의 데이터 스트림을 의미영역으로 분할하고 각 의미영역에서 대표 프레임 영상을 추출한다. 그리고 대표 프레임 영상을 640x480으로 크기를 줄인 후, 멀티미디어 정보 검출부(130)로 전달한다. 전처리부(120)에서 대표 프레임 영상을 추출하는 방법은 처리해야 할 영상의 중간 프레임을 추출하거나 영상 프레임에서 전후 프레임과 비교하여 변화량이 큰 프레임을 추출하는 방법 등 다양한 방법이 사용될 수 있다. 또한 전처리부(120)는 의미영역의 영상에서 연속된 프레임 영상을 추출하고, 해당 영상을 초당 5 프레임으로 샘플링한 후 멀티미디어 정보 검출부(130)로 전달한다.

멀티미디어 정보 검출부(130)의 제어부(131)는 전처리부(120)로부터 대표 프레임 영상을 수신하면, 해당 대표 프레임 영상을 OCR 검출기(133)로 전달하면서 문자 인식을 요청한다. 또한 멀티미디어 정보 검출부(130)의 제어부(131)는 전처리부(120)로부터 연속된 프레임 영상을 수신하면, 해당 프레임 영상들을 PoV 검출기(134)로 전달하면서 객체(명사) 및 행동/행위(동사) 인식을 요청한다.

OCR 검출기(133)는 전처리부(120)에서 전송한 대표 프레임 영상으로부터 문자를 검출하고, [모델 ID][확률, 왼쪽 상단 좌표(left,top), 폭, 높이, 인식한 문자열]와 같은 형식으로 검출 결과를 출력할 수 있다. 모델 ID는 문자를 검출하기 위해 사용한 문자 검출 모델의 식별자를 나타내고, 확률은 검출된 문자 값이 참일 확률을 나타낸다. 왼쪽 상단 좌표(left,top), 폭 및 높이는 문자가 검출된 영역의 왼쪽 상단 좌표(left, top), 폭 및 높이를 나타낸다.

PoV 검출기(134)는 전처리부(120)로부터 수신한 영상 프레임들을 사용하여 영상에 존재하는 객체/사물(명사)을 검출하고, 이를 시공간상으로 누적하여 행동/행위(동사) 이벤트를 추론한다. PoV 검출기(134)는 [모델 ID][확률, 프레임 번호, 왼쪽 상단 좌표(left,top), 폭, 높이, 사물/객체(명사) 클래스] 집합과, [모델 ID][확률, 시작 프레임, 종료 프레임, 이벤트 발생 영역(bounding box)의 왼쪽 상단 좌표(left,top), 폭, 높이, 행동/행위(동사) 클래스] 집합과 같은 형식으로 검출 및 추론된 정보를 출력할 수 있다. 승차하다'의 이벤트를 예를 들면, 차를 타기 위한 행위의 주체인 '차'와 '사람'의 영역을 포함하는 큰 사각형 영역이 이벤트 발생 영역이 된다.

도 5는 본 발명의 실시 예에 따른 OCR 검출기에서 도 4에 도시된 입력 데이터로부터 추출한 메타 정보의 일 예를 나타낸 도면이다.

도 5에 도시한 바와 같이, 모델 ID가 OCR-1인 OCR 검출기(133)는 왼쪽 상단 좌표가 (10,20)이고, 폭이 15이고, 높이가 30인 의미영역의 대표 프레임 영상으로부터 0.88의 확률로 차량 번호 "38더 xxxx"를 인식하고, 인식 결과를 "[OCR-1][0.88, (10,20), 15, 30, 38더 xxxx]"와 같이 인식 결과를 출력할 수 있다.

모델 ID가 PoV-1인 PoV 검출기(134)는 프레임 번호 234의 영상 프레임에서 영상의 왼쪽 상단 좌표가 (10,10)이고, 폭이 200이며 높이가 300인 의미영역으로부터 0.998의 확률로 객체/사물(명사) 'car'를 검출하고, 프레임 번호 234의 영상 프레임에서 영상의 왼쪽 상단 좌표가 (40,70)이고, 폭이 150이며 높이가 200인 의미 영역으로부터 0.969의 확률로 객체/사물(명사) 'person'을 검출하며, 프레임 번호 234부터 250 구간의 영상 프레임에서 왼쪽 상단 좌표(10,10) 및 폭이 200이며 높이가 300인 의미 영역으로부터 0.78의 확률로 행동/행위 이벤트(동사) 'unload'를 인식하게 된다. 이 경우, PoV-1인 PoV 검출기(134)는 "[PoV-1][(0.998, 234, (10, 10), 200, 300, car), (0.969, 234, (40, 70), 150, 200, person), (0.78, 234, 250, (10,10), 200, 300, unload)]와 같은 형식으로 검출 결과를 출력한다.

이와 같이, 멀티미디어 정보 검출부(130)는 다양한 제3자 검출기 솔루션을 활용하여 입력 데이터인 비디오 영상에 대한 메타 정보를 검출하고(S306), 검출된 메타 정보를 지식 베이스 정형화부(140)로 전달한다.

지식 베이스 정형화부(140)는 전처리부(120)로부터 수신한 비디오 영상의 컨텍스트 정보와 멀티미디어 정보 검출부(130)로부터 검출된 비디오 영상에 대한 메타 정보를 동적으로 융합/합성하여 입력 데이터를 사전에 정의된 멀티미디어 지식 표현 기반으로 정형화한다(S308). 입력 데이터의 컨텍스트 정보는 예를 들면, 카메라 ID인 Cam 1, 스트림 ID인 'Stream2016-1234', 촬영 장소인 학생 회관 및 촬영 시간인 3시 등의 정보를 포함할 수 있다.

도 6은 본 발명의 실시 예에 따른 지식 베이스 정형화부에서 지식 베이스를 생성하는 일 예를 나타낸 도면이다.

지식 베이스 정형화부(140)는 전처리부(120)로부터 입력 데이터에 대한 컨텍스트 정보와 OCR 검출기(133) 및 PoV 검출기(134)로부터 도 5에 도시한 바와 같은 메타 정보를 수신한다. 그리고 지식 베이스 정형화부(140)는 도 6에 도시한 바와 같이 사전에 정의된 육하원칙(5W1H) 기반 멀티미디어 지식 의미론적 형식에 메타 정보를 매핑시켜 정형화할 수 있다.

다시, 도 3을 보면, 지식 베이스 관리부(150)는 지식 베이스 정형화부(140)로부터 수신한 멀티미디어 지식 정보를 지식 베이스 DB(160)에 저장한다(S310). 지식 베이스 관리부(150)는 저장된 멀티미디어 지식 정보에 대한 빠른 검색을 지원하기 위해 검색에 적합하도록 지식 베이스 DB(160)를 모델링하여 멀티미디어 지식 정보를 저장 및 관리할 수 있다. 지식 베이스 DB(160)를 모델링 할 경우, 멀티미디어 지식 정보 자체가 기본적으로 '주어(subject)+술어(predicate)+목적어(object)' 형태로 주로 구성되기 때문에 멀티미디어 지식 정보를 저장하는 DB 테이블 구조는 검색의 편의를 위해 (주어, 술어, 목적어) 레코드를 추가하여 구성할 수 있다. 지식 베이스 관리부(150)는 검색의 일반화를 위해서는 기본적으로 5W1H 기반으로 기저 DB를 구축하고 타겟 서비스의 용도에 따라 주로 검색이 되는 항목 중심으로 인덱싱을 다시 하여 검색 성능을 높일 수 있다.

표 6 및 표 7은 지식 베이스 관리부(150)에서 빠른 검색을 지원하기 위해 구성한 테이블의 일 예를 나타낸다.

즉, 빠른 검색을 지원하기 위해 행동/행위와 연관된 객체 정보는 표 6과 같은 테이블 형태로 구성될 수 있으며, 영상에 존재하는 객체 정보는 표 7과 같은 테이블 형태로 구성될 수 있다.

도 7은 도 1에 도시된 사용자 인터페이스를 나타낸 도면이다.

도 7을 참고하면, 사용자 인터페이스(180)는 텍스트 입력 처리부(181), 자연어 입력 처리부(182), 영상 입력 처리부(183), 비디오 입력 처리부(184), PoS 검출기(185), PoV 검출기(186) 및 SQL(Structured Query Language) 생성기(187)를 포함할 수 있다. 또한 사용자 인터페이스(180)는 출력부(188)를 더 포함할 수 있다.

텍스트 입력 처리부는 사용자로부터 수신한 텍스트 입력을 처리하고, 텍스트 입력을 PoS 검출기(185)로 전달한다.

자연어 입력 처리부(182)는 사용자로부터 수신한 자연어 입력을 처리하고, 자연어 입력 처리를 통해 나온 텍스트 결과를 PoS 검출기(185)로 전달한다.

영상 입력 처리부(183)는 사용자로부터 수신한 영상 입력을 처리하고, 영상 입력을 PoV 검출기(186)로 전달한다.

비디오 입력 처리부(184)는 사용자로부터 수신한 비디오 입력을 처리하고, 비디오 입력을 PoV 검출기(186)로 전달한다.

PoS 검출기(185)는 텍스트 입력 처리부(181) 및/또는 자연어 입력 처리부(182)로부터 전달 받은 텍스트로부터 5W1H의 정보를 추출하고, 추출한 5W1H의 정보를 SQL 생성기(187)로 전달한다.

PoV 검출기(186)는 영상 입력 처리부(183) 및/또는 비디오 입력 처리부(184)로부터 전달 받은 영상 및/또는 비디오로부터 5W1H의 형식으로 검색 요청 정보를 추출하고, 추출한 5W1H의 검색 요청 정보를 SQL 생성기(187)로 전달한다.

한편, 자연어, 텍스트, 영상, 동영상 등의 입력이 순서에 상관없이 복합적으로 입력되는 경우, 텍스트 입력 처리부(181), 자연어 입력 처리부(182), 영상 입력 처리부(183) 및 비디오 입력 처리부(184)는 순차적으로 동작하여 해당 입력을 처리할 수 있다.

SQL 생성기(187)는 5W1H의 검색 요청 정보를 지식 베이스 관리부(150)로 전달하여 검색을 요청하고, 지식 베이스 관리부(150)로부터 검색 결과를 수신한다.

출력부(188)는 지식 베이스 관리부(150)로부터 검색 결과를 사용자에게 제공한다. 이때 리스트 형식으로 검색 결과를 출력하거나 검색 결과에 대한 특정 링크를 사용자에게 제공할 수 있다. 출력부(188)는 사용자가 특정 링크를 선택하면, 원본 멀티미디어 데이터를 재생시킬 수 있다.

도 8은 본 발명의 실시 예에 따른 멀티미디어 지식 베이스 구축 시스템의 다른 일 예를 나타낸 도면으로, 도 1을 참고하여 설명한 멀티미디어 지식 베이스 구축 시스템의 기능 중 적어도 일부를 수행할 수 있는 컴퓨터 시스템을 나타낸다.

도 8을 참고하면, 멀티미디어 지식 베이스 구축 시스템(800)은 적어도 하나의 프로세서(810), 메모리(820), 저장 장치(830), 입출력(input/output, I/O) 인터페이스(840) 및 네트워크 인터페이스(850)를 포함한다.

프로세서(810)는 중앙 처리 유닛(central processing unit, CPU)이나 기타 칩셋, 마이크로프로세서 등으로 구현될 수 있다.

메모리(820)는 동적 랜덤 액세스 메모리(dynamic random access memory, DRAM), 램버스 DRAM(rambus DRAM, RDRAM), 동기식 DRAM(synchronous DRAM, SDRAM), 정적 RAM(static RAM, SRAM) 등의 RAM과 같은 매체로 구현될 수 있다.

저장 장치(830)는 하드 디스크(hard disk), CD-ROM(compact disk read only memory), CD-RW(CD rewritable), DVD-ROM(digital video disk ROM), DVD-RAM, DVD-RW 디스크, 블루레이(blu-ray) 디스크 등의 광학 디스크, 플래시 메모리, 다양한 형태의 RAM과 같은 영구 또는 휘발성 저장 장치로 구현될 수 있다.

I/O 인터페이스(840)는 프로세서(810) 및/또는 메모리(820)가 저장 장치(830)에 접근할 수 있도록 한다. 또한 I/O 인터페이스(840)는 사용자와의 인터페이스를 제공할 수 있다.

네트워크 인터페이스(850)는 네트워크를 통해 머신, 단말, 시스템 등과 같은 네트워크 엔티티와 인터페이스를 제공한다.

프로세서(810)는 도 1 내지 도 8에서 설명한 입력부(110), 전처리부(120), 멀티미디어 정보 검출부(130), 지식 베이스 정형화부(140), 지식 베이스 관리부(150) 및 사용자 인터페이스(180)의 기능 중 적어도 일부의 기능을 수행할 수 있다. 프로세서(810)는 도 1 내지 도 8에서 설명한 입력부(110), 전처리부(120), 멀티미디어 정보 검출부(130), 지식 베이스 정형화부(140), 지식 베이스 관리부(150) 및 사용자 인터페이스(180)의 기능 중 적어도 일부의 기능을 구현하기 위한 프로그램 명령을 메모리(820)에 로드시켜, 도 1 내지 도 8을 참고로 하여 설명한 동작이 수행되도록 제어할 수 있다. 그리고 이러한 프로그램 명령은 저장 장치(830)에 저장되어 있을 수 있으며, 또는 네트워크로 연결되어 있는 다른 시스템에 저장되어 있을 수 있다.

메모리(820) 또는 저장 장치(830)는 지식 베이스 DB 및 원본 멀티미디어 아카이브(170)를 포함할 수 있다.

이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속하는 것이다.

Claims

텍스트, 음성, 영상 및 비디오 중 하나 이상의 조합으로 구성된 멀티미디어 데이터로부터 멀티미디어 지식 베이스를 구축하는 시스템으로서,
입력되는 멀티미디어 데이터로부터 텍스트화된 메타 정보를 검출하는 멀티미디어 정보 검출부, 그리고
상기 텍스트화된 메타 정보와 상기 멀티미디어 데이터의 컨텍스트 정보를, 상기 멀티미디어 데이터의 외재적 구성 정보를 나타내는 구문론적 정보와 상기 멀티미디어 데이터의 내재적 의미 정보를 나타내는 의미론적 정보로 분류하여 멀티미디어 지식으로 정형화하는 지식 베이스 정형화부
를 포함하며,
상기 의미론적 정보는 상기 멀티미디어 데이터를 구성하는 의미 영역에 내재된 이벤트 정보 및 상기 이벤트 정보를 구성하는 상황 정보를 포함하고,
상기 구문론적 정보는 상기 멀티미디어 데이터를 생성한 카메라 관련 정보를 포함하는 멀티미디어 지식 베이스 구축 시스템.
제1항에서,
상기 지식 베이스 정형화부는 상기 텍스트화된 메타 정보와 상기 멀티미디어 데이터의 컨텍스트 정보를 이용하여 상기 멀티미디어 데이터를 5W1H 형식의 멀티미디어 지식으로 정형화하는 멀티미디어 지식 베이스 구축 시스템.
제1항에서,
상기 구문론적 정보는 상기 카메라에 의해 생성된 멀티미디어 데이터의 정보 및 상기 멀티미디어 데이터를 구성하는 의미 영역에서 추출된 객체 검출 정보를 포함하는 멀티미디어 지식 베이스 구축 시스템.
제1항에서,
상기 이벤트 정보를 구성하는 상황 정보는 적어도 상기 이벤트의 동작주와 상기 이벤트의 피동작주를 포함하는 멀티미디어 지식 베이스 구축 시스템.
제1항에서,
상기 멀티미디어 지식을 저장하는 지식 베이스 DB(database), 그리고
상기 지식 베이스 DB를 모델링하여 상기 멀티미디어 지식을 검색에 최적화된 구조로 변환하여 관리하는 지식 베이스 관리부
를 더 포함하는 멀티미디어 지식 베이스 구축 시스템.
제5항에서,
사용자로부터 멀티미디어 데이터에 대한 검색 요청을 처리하는 사용자 인터페이스
를 더 포함하는 멀티미디어 지식 베이스 구축 시스템.
제6항에서,
상기 사용자 인터페이스는 자연어, 텍스트, 영상, 동영상 중 적어도 하나의 검색 요청 정보로부터 5W1H의 형식의 검색 요청 정보를 추출하고, 상기 5W1H의 형식의 검색 요청 정보를 상기 지식 베이스 관리부로 전달하고,
상기 지식 베이스 관리부는 상기 5W1H의 형식의 검색 요청 정보를 토대로 상기 지식 베이스 DB를 검색하여 그 결과를 상기 사용자 인터페이스로 전달하는 멀티미디어 지식 베이스 구축 시스템.
제6항에서,
상기 사용자 인터페이스는 검색된 멀티미디어 데이터에 대한 링크를 제공하고, 상기 사용자가 상기 링크를 선택하는 경우 상기 검색된 멀티미디어 데이터를 재생하는 멀티미디어 지식 베이스 구축 시스템.
제1항에서,
상기 멀티미디어 정보 검출부는
음성 입력을 텍스트로 변환하여 상기 음성 입력에 포함된 객체나 행위를 추출하는 PoS(Part of Speech) 검출기,
영상 입력으로부터 문자를 추출하는 OCR(Optical Character Recognition) 검출기,
영상 또는 동영상 입력으로부터 상기 영상 또는 동영상 입력에 포함된 객체나 행위를 추출하는 PoV(Part of Visuals) 검출기, 그리고
영상 또는 동영상 입력으로부터 텍스트 문장을 추출하는 VtS(Visuals to Sentence) 검출기
중 적어도 하나를 포함하는 멀티미디어 지식 베이스 구축 시스템.
제9항에서,
상기 멀티미디어 정보 검출부는 필요한 메타 정보에 따라 상기 PoS 검출기, 상기 OCR 검출기, 상기 PoV 검출기 및 상기 VtS 검출기를 독립적으로 또는 조합하여 동작시키는 제어부를 더 포함하는 멀티미디어 지식 베이스 구축 시스템.
제9항에서,
상기 멀티미디어 정보 검출부의 각 검출기의 입력 명세에 맞게 상기 멀티미디어 데이터를 전처리하여 상기 각 검출기로 전달하는 전처리부
를 더 포함하는 멀티미디어 지식 베이스 구축 시스템.
제1항에서,
상기 지식 베이스 정형화부는 상기 텍스트화된 메타 정보가 상기 멀티미디어 지식의 표현 형식에 부합하지 않는 경우, 사전 구축된 규칙 및 용어 기반 지식 온톨로지를 이용하여 가장 유사도가 높은 용어로 추론 및 변경하여 멀티미디어 지식으로 정형화하는 멀티미디어 지식 베이스 구축 시스템.
멀티미디어 지식 베이스 구축 시스템에서 텍스트, 음성, 영상 및 비디오 중 하나 이상의 조합으로 구성된 멀티미디어 데이터로부터 멀티미디어 지식 베이스를 구축하는 방법으로서,
입력되는 멀티미디어 데이터로부터 텍스트화된 메타 정보를 검출하는 단계,
상기 텍스트화된 메타 정보와 상기 멀티미디어 데이터의 컨텍스트 정보를 이용하여 상기 멀티미디어 데이터의 외재적 구성 정보를 나타내는 구문론적 정보의 멀티미디어 지식과 상기 멀티미디어 데이터의 내재적 의미 정보를 나타내는 의미론적 정보의 멀티미디어 지식으로 분류하여 정형화하는 단계, 그리고
상기 멀티미디어 지식을 지식 베이스 DB(database)에 저장하는 단계
를 포함하며,
상기 의미론적 정보는 상기 멀티미디어 데이터를 구성하는 의미 영역에 내재된 이벤트 정보 및 상기 이벤트 정보를 구성하는 상황 정보를 포함하고,
상기 구문론적 정보는 상기 멀티미디어 데이터를 생성한 카메라 관련 정보를 포함하는 멀티미디어 지식 베이스 구축 방법.
제13항에서,
상기 정형화하는 단계는 상기 의미론적 정보의 멀티미디어 지식을 5W1H 형식으로 표현하는 단계를 포함하는 멀티미디어 지식 베이스 구축 방법.
제13항에서,
상기 구문론적 정보는 상기 카메라에 의해 생성된 멀티미디어 데이터의 정보 및 상기 멀티미디어 데이터를 구성하는 의미 영역에서 추출된 객체 검출 정보를 포함하는 멀티미디어 지식 베이스 구축 방법.
제13항에서,
상기 이벤트 정보를 구성하는 상황 정보는 적어도 상기 이벤트의 동작주와 상기 이벤트의 피동작주를 포함하는 멀티미디어 지식 베이스 구축 방법.
제13항에서,
상기 정형화하는 단계는
상기 텍스트화된 메타 정보가 상기 멀티미디어 지식의 표현 형식에 부합하지 않는 경우, 사전 구축된 규칙 및 용어 기반 지식 온톨로지를 이용하여 가장 유사도가 높은 용어로 추론 및 변경하는 단계, 그리고
상기 추론 및 변경된 용어를 상기 멀티미디어 지식으로 정량화하는 단계
를 포함하는 멀티미디어 지식 베이스 구축 방법.
제13항에서,
상기 지식 베이스 DB를 모델링하여 상기 멀티미디어 지식을 검색에 최적화된 구조로 변환하여 저장하는 단계
를 더 포함하는 멀티미디어 지식 베이스 구축 방법.
제18항에서,
사용자로부터 자연어, 텍스트, 영상, 동영상 중 적어도 하나의 검색 요청 정보를 수신하면, 상기 검색 요청 정보로부터 5W1H의 형식의 검색 요청 정보를 추출하는 단계,
상기 5W1H의 형식의 검색 요청 정보를 토대로 상기 지식 베이스 DB를 검색하는 단계, 그리고
검색 결과를 사용자에게 제공하는 단계
를 더 포함하는 멀티미디어 지식 베이스 구축 방법.
제13항에서,
상기 검출하는 단계는 상기 멀티미디어 데이터로부터 서로 다른 메타 정보를 검출하는 적어도 하나의 검출기로부터 검출되는 메타 정보를 획득하는 단계를 포함하고,
상기 적어도 하나의 검출기는 음성 입력을 텍스트로 변환하여 상기 음성 입력에 포함된 객체나 행위를 추출하는 PoS(Part of Speech) 검출기,
영상 입력으로부터 문자를 추출하는 OCR(Optical Character Recognition) 검출기,
영상 또는 동영상 입력으로부터 상기 영상 또는 동영상 입력에 포함된 객체나 행위를 추출하는 PoV(Part of Visuals) 검출기, 그리고
영상 또는 동영상 입력으로부터 텍스트 문장을 추출하는 VtS(Visuals to Sentence) 검출기 중 적어도 하나를 포함하는 멀티미디어 지식 베이스 구축 방법.