KR102156440B1

KR102156440B1 - 시각언어 기반의 영상주석 자동 생성 장치 및 방법

Info

Publication number: KR102156440B1
Application number: KR1020130153299A
Authority: KR
Inventors: 오원근; 나상일
Original assignee: 한국전자통신연구원
Priority date: 2013-12-10
Filing date: 2013-12-10
Publication date: 2020-09-17
Also published as: US9606975B2; US20150161094A1; KR20150067899A

Abstract

본 발명은 시각언어(Visual language)를 기반으로 초대용량 영상에 대한 영상주석을 자동 생성하는 장치 및 방법에 관한 것이다.
본 발명의 일면에 따른 시각언어 기반의 영상주석 자동 생성 장치는 입력영상을 수신하는 영상입력부와, 영상입력부가 수신한 입력영상의 특징 정보를 추출하는 영상분석부와, 영상분석부가 추출한 특징 정보를 이용하여 입력영상에 대한 유사영상 및 유사영상이 포함하는 텍스트 정보를 검색하는 검색부 및 검색부가 검색한 텍스트 정보를 이용하여 입력영상에 대한 영상 주석을 구성하는 영상주석구성부를 포함한다.

Description

시각언어 기반의 영상주석 자동 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING VISUAL ANNOTATION BASED ON VISUAL LANGUAGE}

본 발명은 시각언어(Visual language)를 기반으로 초대용량 영상에 대한 영상주석을 자동 생성하는 장치 및 방법에 관한 것이다.

IT 시장조사 기관의 보고에 따르면, 2011년 기준으로 전 세계의 디지털 정보량은 1.8 제타바이트(zettabyte) 수준이며, 향후 2020년에는 50배 이상의 빅테이터로 디지털 정보량이 증가할 것으로 예상된다(IDC & EMC 2011).

빅데이터란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리 및 분석할 수 있는 역량을 넘어서는 대량의 정형(숫자, 사무용 DB 등) 또는 비정형 (동영상 등 멀티미디어, SNS 등) 데이터의 집합이다.

즉, 빅데이터는 데이터의 생성 양, 주기, 형식 등이 기존 데이터에 비해 너무 크기 때문에, 종래의 방법으로는 수집, 저장, 검색, 분석이 어려운 방대한 데이터로서, 초대용량의 데이터 양(volume), 다양한 형태(variety), 빠른 생성 속도(velocity)라는 뜻에서 3V라고도 불리우며, 네 번째 특징으로 가치(value)를 더해 4V라고 정의하기도 한다.

이러한 빅테이터의 가치(value)가 중요 특징으로 등장한 것은 엄청난 규모 뿐 아니라 빅데이터의 대부분은 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 이러한 데이터들은 시간이 지나면서 매우 빠르게 전파하며 변함에 따라 그 전체를 파악하고 일정한 패턴을 발견하기가 어렵게 되면서 가치(value) 창출의 중요성이 강조되었기 때문이다.

비정형 데이터를 처리하는 방법은 크게 텍스트 혹은 언어를 기반으로 하는 자연어 처리와 동영상, 사진, TV, 영화처럼 영상을 통한 의미 전달 체계인 시각언어(visual language) 처리로 나눌 수 있다.

이 중 시각언어 기반의 영상 검색 기술은 영상의 정보를 통합적으로 추출 및 분석하고, 영상에 내포된 무한한 정보를 활용하여 새로운 지식 및 정보 창조와 막대한 사회적, 경제적 이득을 얻을 수 있는 기술로서 영상 분석 및 검색 기술이 각광받고 있다.

시각언어(visual language)는 동영상, 사진, TV, 영화와 같이 영상을 통한 의미 전달 체계로서, 언어(텍스트 또는 음성)를 매개로 한 자연어(natural language)와는 다음과 같은 차이점이 있다.

자연어는 개념적으로 의미를 전달하나, 시각언어는 구체적이고 직접적으로 의미를 전달하며, 자연어는 추상적이고 관념적으로 사물을 묘사하나, 시각언어는 구체적으로 사물을 묘사하여 의미가 애매모호하지 않다.

또한, 시각언어는 언어의 국적을 초월한 언어로서, 영상으로부터 시각언어를 구성하기 위해서는, 주어진 영상에서 정보를 추출하고 분석하여야 한다.

이러한 빅데이터 중 영상 데이터에 대한 검색을 신속, 정확하게 수행하기 위하여 영상 및 영상 내의 물체 또는 장면을 인식하여 영상이 표현하는 내용에 대응하는 메타데이터를 자동적으로 부여하는 기술, 즉 영상 주석(annotation) 구성에 대한 필요성이 증대하고 있는 실정이다.

본 발명의 목적은 영상이 지니고 있는 의미 및 내용을 체계화한 시각언어를 기반으로 영상콘텐츠에 자동으로 주석을 부가함으로써, 초대용량 영상의 효율적인 검색을 가능하게 하고, 동영상, 사진, TV 영상 또는 영화와 같은 영상콘텐츠를 스마트 모바일이나 클라우드 컴퓨팅과 같은 개방된 환경에서도 고속으로 정확하게 검색하는 것이 가능한 시각언어 기반의 영상주석 자동 생성 장치 및 방법을 제공하는 데 목적이 있다.

본 발명의 일면에 따른 시각언어 기반의 영상주석 자동 생성 장치는 입력영상을 수신하는 영상입력부와, 영상입력부가 수신한 입력영상의 특징 정보를 추출하는 영상분석부와, 영상분석부가 추출한 특징 정보를 이용하여 입력영상에 대한 유사영상 및 유사영상이 포함하는 텍스트 정보를 검색하는 검색부 및 검색부가 검색한 텍스트 정보를 이용하여 입력영상에 대한 영상 주석을 구성하는 영상주석구성부를 포함하는 것을 특징으로 한다.

또한, 본 발명의 다른 면에 따른 시각언어 기반의 영상주석 자동 생성 방법은 입력영상을 수신하는 영상 입력 단계와, 영상 입력 단계에서 수신한 입력영상의 특징 정보를 추출하는 특징정보 추출 단계와, 추출한 특징 정보를 이용하여 입력영상과 유사한 영상을 검색하고, 유사영상이 포함하는 텍스트 정보를 검색하는 유사영상 및 텍스트 정보 검색 단계와, 입력영상의 특징 정보 및 유사영상이 포함하는 텍스트 정보를 분석하여 입력영상에 대한 텍스트 정보를 선정하는 텍스트 정보 선정 단계 및 선정한 텍스트 정보를 이용하여 키워드 리스트를 구성하고, 키워드 리스트를 이용하여 입력영상에 대한 영상 주석을 구성하는 키워드 리스트 및 영상주석 구성 단계를 포함하는 것을 특징으로 한다.

또한, 본 발명의 또 다른 면에 따른 시각언어 기반의 영상주석 자동 생성 시스템은 입력영상을 수신하고, 입력영상 및 입력영상에 대한 영상주석 요청 신호를 송신하는 단말 및 단말로부터 입력영상 및 입력 영상에 대한 영상주석 요청 신호를 수신하고, 입력영상의 특징 정보를 추출하고, 입력영상의 특징 정보에 따라 영상 및 메타데이터 DB를 검색하여 입력영상에 대한 영상 주석을 구성하는 서버를 포함하는 것을 특징으로 한다.

본 발명에 따른 시각언어 기반의 영상주석 자동 생성 장치 및 방법은 영상 및 메타데이터 DB를 이용하여 입력되는 영상에 대한 영상 주석을 자동으로 구성함으로써, 빅데이터의 80% 이상을 차지하는 영상 관련 지식 정보에 대한 효율적인 검색이 가능하도록 하는 효과가 있다.

또한, 시각언어를 기반으로 영상에 대한 주석을 자동으로 구성할 수 있으므로, 영상 검색, 관리, 유동, 서비스 분야 및 향후 차세대 산업으로 각광받는 모바일 증강현실(AR, Augmented Reality) 및 상황감시, 예고 분야에 광범위하게 적용할 수 있는 효과가 있다.

아울러 현재 구축된 유무선 네트워크 환경에 초대용량, 고품질 디지털 영상 및 콘텐츠 보급을 위한 디지털플랫폼을 결합하는 효과가 있다.

본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 장치를 나타내는 블록도.
도 2는 기본정보만을 포함하는 단순 영상을 나타내는 개념도.
도 3은 본 발명의 적용에 따른 영상주석을 포함하는 시각언어를 나타내는 개념도.
도 4는 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 과정을 나타낸 개념도.
도 5는 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 방법을 나타내는 순서도.

이하에서는 도면을 참조하면서, 본 발명의 바람직한 실시예들을 구체적으로 설명한다.

도 1은 본 발명의 일면에 따른 시각언어 기반의 영상주석 자동 생성 장치를 나타내는 블록도이고, 도 4은 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 과정을 나타낸 개념도이다.

도 1 및 도 4를 참조하면, 본 발명의 일면에 따른 시각언어 기반의 영상주석 자동 생성 장치는 입력영상을 수신하는 영상입력부(100)와, 영상입력부(100)가 수신한 입력영상의 특징 정보를 추출하는 영상분석부(200)와, 입력영상에 대한 유사영상 및 유사영상이 포함하는 텍스트 정보를 검색하는 검색부(300) 및 검색부(300)가 검색한 텍스트 정보를 이용하여 입력영상에 대한 영상 주석을 구성하는 영상주석구성부(400)를 포함한다.

이 때, 영상입력부(100)가 수신하는 입력영상은 어떠한 메타데이터나 정보가 없는 순수 비디오 또는 이미지 영상이다.

영상분석부(200)는 영상입력부(100)가 수신한 입력영상을 분석하여, 입력영상이 포함하는 객체의 색상, 질감, 이름, 모양, 위치 및 입력영상이 포함하는 복수의 객체 간의 위치 관계 중 적어도 어느 하나를 입력영상의 특징 정보로 추출한다.

검색부(300)는 영상분석부(200)가 추출한 특징 정보를 이용하여 입력영상에 대한 유사영상 및 유사영상이 포함하는 텍스트 정보를 검색하되, 클라우드 환경이나 웹 또는 서버에서 수집한 영상과 이러한 영상의 특징 정보 및 텍스트 정보로 구성된 메타데이터 DB(database) 를 이용하여, 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보를 수신하고, 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보 및 입력영상의 특징 정보를 비교하여, 영상입력부(100)가 수신한 입력영상에 대한 유사영상을 선택한다.

즉, 본 발명의 일면에 따른 시각언어 기반의 영상주석 자동 생성 장치는 기획득된 DB 내에 포함된 영상 및 메타데이터를 이용하여, 입력된 영상과 유사한 영상을 기술하는 텍스트 정보를 조합하고, 의미론적 해석을 통하여 입력영상에 대한 영상 주석을 생성하는 것을 요지로 하는 것으로서, 본 발명의 일면에 따른 검색부(300)는 입력영상의 특징 정보와 영상 및 메타데이터 DB에 포함되는 후보 영상의 특징 정보를 비교하여, 유사영상을 선택한다.

이 때, 본 발명의 일면에 따른 검색부(300)는 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보 및 입력영상의 특징 정보의 유사도를 산출하고, 산출한 유사도가 기설정값 이상인 경우, 이러한 영상 및 메타데이터 DB가 포함하는 영상을 입력영상에 대한 유사영상으로 선택한다.

즉, 본 발명의 일면에 따른 검색부(300)는 영상 및 메타데이터 DB를 이용하여 영상입력부(100)가 수신한 입력영상과 유사한 영상을 검색함에 있어서, 특징 정보의 비교를 통하여 입력영상 및 영상 및 메타데이터 DB가 포함하는 영상의 유사도를 산출하고, 산출한 유사도가 기설정값(예: 특징 정보를 구성하는 팩터 중 50%이상이 유사한 것으로 판단된 경우) 이상인 경우, 이러한 경우에 해당하는 영상 및 메타데이터 DB내의 영상을 입력영상의 유사영상으로 선택하고, 이러한 유사영상 선택 과정에 있어서 영상 및 메타데이터 DB내의 영상이 포함하는 메타데이터(텍스트 정보)도 함께 검색한다.

검색부(300)는 유사영상이 포함하는 텍스트 정보를 이용하여 후보집단을 설정하고, 후보집단이 포함하는 텍스트 정보 중 기설정된 빈도 이상의 텍스트 정보를 입력영상에 대한 텍스트 정보로 선정한다.

즉, 검색부(300)는 영상 및 메타데이터 DB 내의 영상의 특징 정보와 입력영상의 특징 정보를 비교하여 유사영상을 선택하고, 선택한 유사영상이 포함하는 텍스트 정보의 집합인 입력영상에 대한 텍스트 정보 후보집단을 설정하고, 후보집단이 포함하는 복수의 텍스트 정보 중 기설정된 빈도 이상(예: 3회 이상 검색된 텍스트 정보)의 텍스트 정보를 영상입력부(100)가 수신한 입력영상에 대한 텍스트 정보로 선정한다.

또한, 본 발명에 따른 영상주석구성부(400)는 검색부(300)가 선정한 입력영상에 대한 텍스트 정보를 분석하여 키워드 리스트(keyword list)를 구성하고, 키워드 리스트가 포함하는 텍스트 정보를 처리하여 입력영상이 포함하고 있는 내용을 문장으로 표현하는 영상 주석을 생성한다.

영상주석구성부(400)는 단순히 입력영상이 포함하는 객체를 기술(description)하는 것이 아니라, 입력영상이 포함하는 객체에 해당하는 키워드 리스트 내의 텍스트 정보에 대한 의미론적 해석(semantic analysis)을 통하여, 입력영상에 대한 영상 주석을 생성한다.

도 3을 참조하면, 본 발명의 적용에 따라 생성된 영상 주석을 포함하는 영상은 도 2의 기본정보(이름, 크기, 해상도 등)만을 포함하는 단순 영상과 차별화되어, 영상이 지니고 있는 구체적인 정보, 즉 객체의 이름(예: 세계지도, 흑판, 지리 선생님, 지우개, 청색수트, 회색바지, 검은 구두, 모니터, PC 본체, 스피커, 테이블), 객체의 위치 및 상호 관계(예: 테이블 위에 있는 PC는), 입력영상에 대한 의미론적 해석을 통한 영상 주석(서울에서 시드니까지의 거리, 모니터 화면상의 오페라 하우스 및 세계 지도상에서의 시드니의 위치, 선생님의 수업과목 등)을 구성하고, 영상이 포함하는 내용을 문장으로 표현하는 영상 주석(예: 오페라 하우스는 호주 시드니에 있는, 조영필 지리 선생님 강의)를 생성한다.

영상주석구성부(400)는 검색부(300)가 선정한 유사영상 및 유사영상이 포함하는 텍스트 정보를 이용하여, 영상이 포함하는 내용을 문장으로 표현하는 영상 주석을 다국적 언어로 구성하는 것이 가능하다.

즉, 영상주석구성부(400)는 키워드 리스트를 이용하여 입력영상이 포함하는 복수의 객체의 조합 또는 복수의 객체 중 적어도 어느 하나의 객체에 대한 영상 주석을 생성한다.

도 5는 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 방법을 나타내는 순서도이다.

도 5를 참조하면, 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 방법은 입력영상을 수신하는 영상 입력 단계(S100)와, 영상 입력 단계(S100)에서 수신한 입력영상의 특징 정보를 추출하는 특징정보 추출 단계(S200)와, 추출한 특징 정보를 이용하여 입력영상과 유사한 영상을 검색하고, 유사영상이 포함하는 텍스트 정보를 검색하는 유사영상 및 텍스트 정보 검색 단계(S300)와, 입력영상의 특징 정보 및 유사영상이 포함하는 텍스트 정보를 분석하여 입력영상에 대한 텍스트 정보를 선정하는 텍스트 정보 선정 단계(S400) 및 선정한 텍스트 정보를 이용하여 키워드 리스트를 구성하고, 키워드 리스트를 이용하여 입력영상에 대한 영상 주석을 구성하는 키워드 리스트 및 영상주석 구성 단계(S500)를 포함한다.

특징정보 추출 단계(S200)는 입력영상을 분석하여, 입력영상 내의 객체의 색상, 질감, 이름, 모양, 위치, 객체간의 상호 관계 중 적어도 어느 하나를 포함하는 특징 정보를 추출한다.

유사영상 및 텍스트 정보 검색 단계(S300)는 클라우드 환경, 웹 또는 서버에서 수집한 영상과 영상의 특징 정보 및 텍스트(메타데이터)로 구성된 영상 및 메타데이터 DB 내의 영상으로부터 추출한 특징 정보와 영상 입력 단계(S100)에서 수신한 입력영상의 특징 정보를 비교하여 유사도를 산출하고, 산출한 유사도가 높은 영상을 입력영상의 유사영상으로 선택한다.

텍스트 정보 선정 단계(S400)는 영상 및 메타데이터 DB가 포함하는 영상 중 유사영상으로 선택된 영상이 포함하는 텍스트 정보를 이용하여 영상 입력 단계(S100)에서 수신한 입력영상에 대한 영상주석을 구성할 후보로서 후보집단을 설정하고, 후보집단 중 적어도 어느 하나의 텍스트 정보에 대한 선택 정보를 수신하여 입력영상에 대한 텍스트 정보를 선정하거나, 후보집단을 구성하는 텍스트 정보 중 기설정된 빈도 이상의 텍스트 정보를 입력영상에 대한 텍스트 정보로 선정한다.

즉, 영상 및 메타데이터 DB 내의 영상의 특징 정보 및 입력영상의 특징 정보를 비교하여, 영상 및 메타데이터 DB 내의 영상 중 입력영상과 유사한 영상을 선택하고, 유사영상이 포함하는 텍스트 정보 중 검색 빈도가 높은 텍스트 정보를 입력영상에 대한 텍스트 정보로 선정한다.

또한, 키워드 리스트 및 영상주석 구성 단계(S500)는 텍스트 정보 선정 단계(S400)에서 선정한 입력영상에 대한 텍스트 정보를 이용하여 키워드 리스트를 생성하고, 키워드 리스트를 이용하여 입력영상이 포함하는 복수의 객체의 조합 또는 복수의 객체 중 적어도 어느 하나의 객체에 대한 영상 주석을 생성한다.

이 때, 키워드 리스트 및 영상주석 구성 단계(S500)는 키워드 리스트 내에 포함되는 텍스트 정보에 대하여 의미론적 해석(semantic analysis) 기법을 적용하여, 입력영상이 포함하는 객체에 대한 기술(description)은 물론이고, 입력영상이 포함하는 내용을 표현하는 문장을 입력영상에 대한 영상 주석으로 생성한다.

본 발명의 또 다른 면에 따른 시각언어 기반의 영상주석 자동 생성 시스템은 입력영상을 수신하고, 입력영상 및 입력영상에 대한 영상주석 요청 신호를 송신하는 단말 및 단말로부터 입력영상 및 입력 영상에 대한 영상주석 요청 신호를 수신하고, 입력영상의 특징 정보를 추출하고, 입력영상의 특징 정보에 따라 영상 및 메타데이터 DB를 검색하여 입력영상에 대한 영상 주석을 구성하는 서버를 포함하여 구성된다.

이 때, 서버는 단말로부터 수신한 입력영상을 분석하여, 입력영상이 포함하는 객체의 색상, 질감, 이름, 모양, 위치 및 복수의 객체 간의 상호 관계 중 적어도 어느 하나를 입력영상의 특징 정보로 추출한다.

또한, 서버는 클라우드 컴퓨팅, 웹 또는 타 서버에서 기수집된 영상과, 영상에 대한 특징 정보 및 텍스트를 포함하는 영상 및 메타데이터 DB를 검색하여 입력영상에 대한 유사영상을 선택한다.

즉, 서버는 입력영상으로부터 추출한 특징정보(예: 객체의 색상, 질감, 이름, 모양, 위치 및 복수의 객체 간의 상호 관계)와 영상 및 메타데이터 DB가 포함하는 영상으로부터 추출된 특징 정보(예: 객체의 색상, 질감, 이름, 모양, 위치 및 복수의 객체 간의 상호 관계)를 비교하여 유사도를 산출하고, 유사도가 높은 영상을 입력영상의 유사영상으로 선택한다.

서버는 유사영상이 포함하는 텍스트 정보를 이용하여 후보집단을 설정하고, 후보집단 중 기설정된 빈도 이상의 텍스트 정보를 입력영상에 대한 텍스트 정보로 선정한다.

따라서, 입력영상과 유사한 영상이 포함하는 텍스트 정보가 복수인 경우, 복수의 텍스트 정보 중 검색 빈도가 가장 높은 텍스트 정보를 입력영상에 대한 텍스트 정보로 선정함으로써, 영상 주석을 이용하여 영상 콘텐츠를 검색하는 경우 정확한 검색을 도모하는 추가적인 효과를 기대할 수 있다.

또한, 서버는 후보집단 중 적어도 어느 하나의 텍스트 정보에 대한 선택 정보를 수신하고, 선택 정보에 따라 입력영상에 대한 텍스트 정보를 선정한다.

즉, 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 시스템은 입력영상과 유사한 영상으로 선택된 영상 및 메타데이터 DB 내의 영상이 포함하는 텍스트 정보의 집합을 입력영상에 대한 영상 주석 구성을 위한 후보집단으로 설정하고, 후보집단에 포함된 텍스트 정보 중 기설정된 빈도 이상의 텍스트 정보를 이용하여 영상 주석을 구성하거나, 후보집단에 포함된 텍스트 정보에 대한 사용자 입력을 통한 선택 정보를 수신하여 선택된 텍스트 정보를 이용하여 영상 주석을 구성하는 것이 가능하다.

이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100: 영상입력부 200: 영상분석부
300: 검색부 400: 영상주석구성부

Claims

입력영상을 수신하는 영상입력부;
상기 영상입력부가 수신한 입력영상의 특징 정보를 추출하는 영상분석부;
상기 영상분석부가 추출한 특징 정보를 이용하여 상기 입력영상에 대한 유사영상 및 상기 유사영상이 포함하는 텍스트 정보를 검색하여, 상기 입력영상에 대한 텍스트 정보를 선정하는 검색부; 및
상기 검색부가 선정한 텍스트 정보를 분석하여 키워드 리스트를 생성하고, 상기 키워드 리스트 내의 텍스트 정보에 대한 의미론적 해석을 통해 상기 입력영상에 대한 영상 주석을 구성하는 영상주석구성부를 포함하고,
상기 검색부는 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보를 수신하고, 상기 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보 및 상기 입력영상의 특징 정보를 비교하여, 상기 입력영상에 대한 유사영상을 선택하고, 상기 유사영상이 포함하는 텍스트 정보를 이용하여 후보집단을 설정하고, 상기 후보집단이 포함하는 텍스트 정보 중 기설정된 빈도 이상의 텍스트 정보를 상기 입력영상에 대한 텍스트 정보로 선정하고,
상기 영상주석구성부는 상기 키워드 리스트 내에 포함되는 텍스트 정보에 대하여 의미론적 해석 기법을 적용하여, 상기 입력영상이 포함하는 복수의 객체의 조합에 대해 상기 입력영상이 포함하는 내용을 문장으로 표현하는 상기 영상 주석을 생성하는 것
인 시각언어 기반의 영상주석 자동 생성 장치.
제1항에 있어서, 상기 영상분석부는
상기 입력영상을 분석하여, 상기 입력영상이 포함하는 객체의 색상, 질감, 이름, 모양, 위치 및 객체 간의 위치 관계 중 적어도 어느 하나를 상기 입력영상의 특징 정보로 추출하는 것
인 시각언어 기반의 영상주석 자동 생성 장치.
삭제
제1항에 있어서, 상기 검색부는
상기 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보 및 상기 입력영상의 특징 정보의 유사도를 산출하고, 상기 산출한 유사도가 기설정값 이상인 상기 영상 및 메타데이터 DB가 포함하는 영상을 상기 입력영상에 대한 유사영상으로 선택하는 것
인 시각언어 기반의 영상주석 자동 생성 장치.
삭제
삭제
(a) 입력영상을 수신하는 영상 입력 단계;
(b) 상기 영상 입력 단계에서 수신한 입력영상의 특징 정보를 추출하는 특징정보 추출 단계;
(c) 상기 추출한 특징 정보를 이용하여 상기 입력영상과 유사한 영상을 검색하고, 유사영상이 포함하는 텍스트 정보를 검색하는 유사영상 및 텍스트 정보 검색 단계;
(d) 상기 입력영상의 특징 정보 및 상기 유사영상이 포함하는 텍스트 정보를 분석하여 상기 입력영상에 대한 텍스트 정보를 선정하는 텍스트 정보 선정 단계; 및
(e) 상기 선정한 텍스트 정보를 이용하여 키워드 리스트를 구성하고, 상기 키워드 리스트 내의 텍스트 정보에 대한 의미론적 해석을 통해 상기 입력영상이 포함하는 복수의 객체의 조합에 대해 상기 입력영상이 포함하는 내용을 문장으로 표현하는 영상 주석을 생성하는 단계를 포함하고,
상기 (d) 단계는 메타데이터 DB 내의 유사영상이 포함하는 텍스트 정보를 이용하여 후보집단을 설정하고, 상기 후보집단 중 적어도 어느 하나의 텍스트 정보에 대한 선택 정보를 수신하여 상기 입력영상에 대한 텍스트 정보를 선정하거나, 상기 후보집단 중 기설정된 빈도 이상의 텍스트 정보를 상기 입력영상에 대한 텍스트 정보로 선정하고,
상기 (e) 단계는 상기 (d) 단계에서 선정한 상기 입력영상에 대한 텍스트 정보를 이용하여 키워드 리스트를 생성하고, 상기 키워드 리스트를 이용하여 상기 입력영상이 포함하는 복수의 객체의 조합에 따라 상기 입력영상이 포함하는 내용을 문장으로 표현하는 상기 영상 주석을 생성하는 것
인 시각언어 기반의 영상주석 자동 생성 방법.
제7항에 있어서, 상기 (b) 단계는
상기 입력영상을 분석하여, 상기 입력영상 내의 객체의 색상, 질감, 이름, 모양, 위치, 객체간의 상호 관계 중 적어도 어느 하나를 포함하는 특징 정보를 추출하는 것
인 시각언어 기반의 영상주석 자동 생성 방법.
삭제
삭제
삭제
입력영상을 수신하고, 상기 입력영상 및 상기 입력영상에 대한 영상주석 요청 신호를 송신하는 단말; 및
상기 단말로부터 상기 입력영상 및 입력 영상에 대한 영상주석 요청 신호를 수신하고, 상기 입력영상의 특징 정보를 추출하고, 상기 입력영상의 특징 정보에 따라 영상 및 메타데이터 DB를 검색하여 생성한 키워드 리스트 내의 텍스트 정보에 대한 의미론적 해석을 통해 상기 입력영상에 대한 영상 주석을 구성하는 서버를 포함하고,
상기 서버는 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보를 수신하고, 상기 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보 및 상기 입력영상의 특징 정보를 비교하여, 상기 입력영상에 대한 유사영상을 선택하고, 상기 유사영상이 포함하는 텍스트 정보를 이용하여 후보집단을 설정하고, 상기 후보집단이 포함하는 텍스트 정보 중 기설정된 빈도 이상의 텍스트 정보를 상기 입력영상에 대한 텍스트 정보로 선정하고, 상기 키워드 리스트 내에 포함되는 텍스트 정보에 대하여 의미론적 해석 기법을 적용하여, 상기 입력영상이 포함하는 복수의 객체의 조합에 대해 상기 입력영상이 포함하는 내용을 문장으로 표현하는 상기 영상 주석을 생성하는 것
인 시각언어 기반의 영상주석 자동 생성 시스템.
제12항에 있어서, 상기 서버는
상기 단말로부터 수신한 입력영상을 분석하여 상기 입력영상이 포함하는 객체의 색상, 질감, 이름, 모양, 위치, 객체 간의 상호 관계 중 적어도 어느 하나를 상기 입력영상의 특징 정보로 추출하는 것
인 시각언어 기반의 영상주석 자동 생성 시스템.
제12항에 있어서, 상기 서버는
클라우드 컴퓨팅, 웹 또는 타 서버에서 기수집한 영상, 상기 영상에 대한 특징 정보 및 텍스트를 포함하는 상기 영상 및 메타데이터 DB를 검색하여 상기 입력영상에 대한 유사영상을 선택하는 것
인 시각언어 기반의 영상주석 자동 생성 시스템.
삭제
삭제
삭제
제12항에 있어서, 상기 서버는
상기 후보집단 중 적어도 어느 하나의 텍스트 정보에 대한 선택 정보를 수신하고, 상기 선택 정보에 따라 상기 입력영상에 대한 텍스트 정보를 선정하는 것
인 시각언어 기반의 영상주석 자동 생성 시스템.