KR102156440B1 - 시각언어 기반의 영상주석 자동 생성 장치 및 방법 - Google Patents

시각언어 기반의 영상주석 자동 생성 장치 및 방법 Download PDF

Info

Publication number
KR102156440B1
KR102156440B1 KR1020130153299A KR20130153299A KR102156440B1 KR 102156440 B1 KR102156440 B1 KR 102156440B1 KR 1020130153299 A KR1020130153299 A KR 1020130153299A KR 20130153299 A KR20130153299 A KR 20130153299A KR 102156440 B1 KR102156440 B1 KR 102156440B1
Authority
KR
South Korea
Prior art keywords
image
input image
text information
input
information
Prior art date
Application number
KR1020130153299A
Other languages
English (en)
Other versions
KR20150067899A (ko
Inventor
오원근
나상일
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130153299A priority Critical patent/KR102156440B1/ko
Priority to US14/320,362 priority patent/US9606975B2/en
Publication of KR20150067899A publication Critical patent/KR20150067899A/ko
Application granted granted Critical
Publication of KR102156440B1 publication Critical patent/KR102156440B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 시각언어(Visual language)를 기반으로 초대용량 영상에 대한 영상주석을 자동 생성하는 장치 및 방법에 관한 것이다.
본 발명의 일면에 따른 시각언어 기반의 영상주석 자동 생성 장치는 입력영상을 수신하는 영상입력부와, 영상입력부가 수신한 입력영상의 특징 정보를 추출하는 영상분석부와, 영상분석부가 추출한 특징 정보를 이용하여 입력영상에 대한 유사영상 및 유사영상이 포함하는 텍스트 정보를 검색하는 검색부 및 검색부가 검색한 텍스트 정보를 이용하여 입력영상에 대한 영상 주석을 구성하는 영상주석구성부를 포함한다.

Description

시각언어 기반의 영상주석 자동 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING VISUAL ANNOTATION BASED ON VISUAL LANGUAGE}
본 발명은 시각언어(Visual language)를 기반으로 초대용량 영상에 대한 영상주석을 자동 생성하는 장치 및 방법에 관한 것이다.
IT 시장조사 기관의 보고에 따르면, 2011년 기준으로 전 세계의 디지털 정보량은 1.8 제타바이트(zettabyte) 수준이며, 향후 2020년에는 50배 이상의 빅테이터로 디지털 정보량이 증가할 것으로 예상된다(IDC & EMC 2011).
빅데이터란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리 및 분석할 수 있는 역량을 넘어서는 대량의 정형(숫자, 사무용 DB 등) 또는 비정형 (동영상 등 멀티미디어, SNS 등) 데이터의 집합이다.
즉, 빅데이터는 데이터의 생성 양, 주기, 형식 등이 기존 데이터에 비해 너무 크기 때문에, 종래의 방법으로는 수집, 저장, 검색, 분석이 어려운 방대한 데이터로서, 초대용량의 데이터 양(volume), 다양한 형태(variety), 빠른 생성 속도(velocity)라는 뜻에서 3V라고도 불리우며, 네 번째 특징으로 가치(value)를 더해 4V라고 정의하기도 한다.
이러한 빅테이터의 가치(value)가 중요 특징으로 등장한 것은 엄청난 규모 뿐 아니라 빅데이터의 대부분은 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 이러한 데이터들은 시간이 지나면서 매우 빠르게 전파하며 변함에 따라 그 전체를 파악하고 일정한 패턴을 발견하기가 어렵게 되면서 가치(value) 창출의 중요성이 강조되었기 때문이다.
비정형 데이터를 처리하는 방법은 크게 텍스트 혹은 언어를 기반으로 하는 자연어 처리와 동영상, 사진, TV, 영화처럼 영상을 통한 의미 전달 체계인 시각언어(visual language) 처리로 나눌 수 있다.
이 중 시각언어 기반의 영상 검색 기술은 영상의 정보를 통합적으로 추출 및 분석하고, 영상에 내포된 무한한 정보를 활용하여 새로운 지식 및 정보 창조와 막대한 사회적, 경제적 이득을 얻을 수 있는 기술로서 영상 분석 및 검색 기술이 각광받고 있다.
시각언어(visual language)는 동영상, 사진, TV, 영화와 같이 영상을 통한 의미 전달 체계로서, 언어(텍스트 또는 음성)를 매개로 한 자연어(natural language)와는 다음과 같은 차이점이 있다.
자연어는 개념적으로 의미를 전달하나, 시각언어는 구체적이고 직접적으로 의미를 전달하며, 자연어는 추상적이고 관념적으로 사물을 묘사하나, 시각언어는 구체적으로 사물을 묘사하여 의미가 애매모호하지 않다.
또한, 시각언어는 언어의 국적을 초월한 언어로서, 영상으로부터 시각언어를 구성하기 위해서는, 주어진 영상에서 정보를 추출하고 분석하여야 한다.
이러한 빅데이터 중 영상 데이터에 대한 검색을 신속, 정확하게 수행하기 위하여 영상 및 영상 내의 물체 또는 장면을 인식하여 영상이 표현하는 내용에 대응하는 메타데이터를 자동적으로 부여하는 기술, 즉 영상 주석(annotation) 구성에 대한 필요성이 증대하고 있는 실정이다.
본 발명의 목적은 영상이 지니고 있는 의미 및 내용을 체계화한 시각언어를 기반으로 영상콘텐츠에 자동으로 주석을 부가함으로써, 초대용량 영상의 효율적인 검색을 가능하게 하고, 동영상, 사진, TV 영상 또는 영화와 같은 영상콘텐츠를 스마트 모바일이나 클라우드 컴퓨팅과 같은 개방된 환경에서도 고속으로 정확하게 검색하는 것이 가능한 시각언어 기반의 영상주석 자동 생성 장치 및 방법을 제공하는 데 목적이 있다.
본 발명의 일면에 따른 시각언어 기반의 영상주석 자동 생성 장치는 입력영상을 수신하는 영상입력부와, 영상입력부가 수신한 입력영상의 특징 정보를 추출하는 영상분석부와, 영상분석부가 추출한 특징 정보를 이용하여 입력영상에 대한 유사영상 및 유사영상이 포함하는 텍스트 정보를 검색하는 검색부 및 검색부가 검색한 텍스트 정보를 이용하여 입력영상에 대한 영상 주석을 구성하는 영상주석구성부를 포함하는 것을 특징으로 한다.
또한, 본 발명의 다른 면에 따른 시각언어 기반의 영상주석 자동 생성 방법은 입력영상을 수신하는 영상 입력 단계와, 영상 입력 단계에서 수신한 입력영상의 특징 정보를 추출하는 특징정보 추출 단계와, 추출한 특징 정보를 이용하여 입력영상과 유사한 영상을 검색하고, 유사영상이 포함하는 텍스트 정보를 검색하는 유사영상 및 텍스트 정보 검색 단계와, 입력영상의 특징 정보 및 유사영상이 포함하는 텍스트 정보를 분석하여 입력영상에 대한 텍스트 정보를 선정하는 텍스트 정보 선정 단계 및 선정한 텍스트 정보를 이용하여 키워드 리스트를 구성하고, 키워드 리스트를 이용하여 입력영상에 대한 영상 주석을 구성하는 키워드 리스트 및 영상주석 구성 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명의 또 다른 면에 따른 시각언어 기반의 영상주석 자동 생성 시스템은 입력영상을 수신하고, 입력영상 및 입력영상에 대한 영상주석 요청 신호를 송신하는 단말 및 단말로부터 입력영상 및 입력 영상에 대한 영상주석 요청 신호를 수신하고, 입력영상의 특징 정보를 추출하고, 입력영상의 특징 정보에 따라 영상 및 메타데이터 DB를 검색하여 입력영상에 대한 영상 주석을 구성하는 서버를 포함하는 것을 특징으로 한다.
본 발명에 따른 시각언어 기반의 영상주석 자동 생성 장치 및 방법은 영상 및 메타데이터 DB를 이용하여 입력되는 영상에 대한 영상 주석을 자동으로 구성함으로써, 빅데이터의 80% 이상을 차지하는 영상 관련 지식 정보에 대한 효율적인 검색이 가능하도록 하는 효과가 있다.
또한, 시각언어를 기반으로 영상에 대한 주석을 자동으로 구성할 수 있으므로, 영상 검색, 관리, 유동, 서비스 분야 및 향후 차세대 산업으로 각광받는 모바일 증강현실(AR, Augmented Reality) 및 상황감시, 예고 분야에 광범위하게 적용할 수 있는 효과가 있다.
아울러 현재 구축된 유무선 네트워크 환경에 초대용량, 고품질 디지털 영상 및 콘텐츠 보급을 위한 디지털플랫폼을 결합하는 효과가 있다.
본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 장치를 나타내는 블록도.
도 2는 기본정보만을 포함하는 단순 영상을 나타내는 개념도.
도 3은 본 발명의 적용에 따른 영상주석을 포함하는 시각언어를 나타내는 개념도.
도 4는 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 과정을 나타낸 개념도.
도 5는 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 방법을 나타내는 순서도.
이하에서는 도면을 참조하면서, 본 발명의 바람직한 실시예들을 구체적으로 설명한다.
도 1은 본 발명의 일면에 따른 시각언어 기반의 영상주석 자동 생성 장치를 나타내는 블록도이고, 도 4은 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 과정을 나타낸 개념도이다.
도 1 및 도 4를 참조하면, 본 발명의 일면에 따른 시각언어 기반의 영상주석 자동 생성 장치는 입력영상을 수신하는 영상입력부(100)와, 영상입력부(100)가 수신한 입력영상의 특징 정보를 추출하는 영상분석부(200)와, 입력영상에 대한 유사영상 및 유사영상이 포함하는 텍스트 정보를 검색하는 검색부(300) 및 검색부(300)가 검색한 텍스트 정보를 이용하여 입력영상에 대한 영상 주석을 구성하는 영상주석구성부(400)를 포함한다.
이 때, 영상입력부(100)가 수신하는 입력영상은 어떠한 메타데이터나 정보가 없는 순수 비디오 또는 이미지 영상이다.
영상분석부(200)는 영상입력부(100)가 수신한 입력영상을 분석하여, 입력영상이 포함하는 객체의 색상, 질감, 이름, 모양, 위치 및 입력영상이 포함하는 복수의 객체 간의 위치 관계 중 적어도 어느 하나를 입력영상의 특징 정보로 추출한다.
검색부(300)는 영상분석부(200)가 추출한 특징 정보를 이용하여 입력영상에 대한 유사영상 및 유사영상이 포함하는 텍스트 정보를 검색하되, 클라우드 환경이나 웹 또는 서버에서 수집한 영상과 이러한 영상의 특징 정보 및 텍스트 정보로 구성된 메타데이터 DB(database) 를 이용하여, 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보를 수신하고, 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보 및 입력영상의 특징 정보를 비교하여, 영상입력부(100)가 수신한 입력영상에 대한 유사영상을 선택한다.
즉, 본 발명의 일면에 따른 시각언어 기반의 영상주석 자동 생성 장치는 기획득된 DB 내에 포함된 영상 및 메타데이터를 이용하여, 입력된 영상과 유사한 영상을 기술하는 텍스트 정보를 조합하고, 의미론적 해석을 통하여 입력영상에 대한 영상 주석을 생성하는 것을 요지로 하는 것으로서, 본 발명의 일면에 따른 검색부(300)는 입력영상의 특징 정보와 영상 및 메타데이터 DB에 포함되는 후보 영상의 특징 정보를 비교하여, 유사영상을 선택한다.
이 때, 본 발명의 일면에 따른 검색부(300)는 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보 및 입력영상의 특징 정보의 유사도를 산출하고, 산출한 유사도가 기설정값 이상인 경우, 이러한 영상 및 메타데이터 DB가 포함하는 영상을 입력영상에 대한 유사영상으로 선택한다.
즉, 본 발명의 일면에 따른 검색부(300)는 영상 및 메타데이터 DB를 이용하여 영상입력부(100)가 수신한 입력영상과 유사한 영상을 검색함에 있어서, 특징 정보의 비교를 통하여 입력영상 및 영상 및 메타데이터 DB가 포함하는 영상의 유사도를 산출하고, 산출한 유사도가 기설정값(예: 특징 정보를 구성하는 팩터 중 50%이상이 유사한 것으로 판단된 경우) 이상인 경우, 이러한 경우에 해당하는 영상 및 메타데이터 DB내의 영상을 입력영상의 유사영상으로 선택하고, 이러한 유사영상 선택 과정에 있어서 영상 및 메타데이터 DB내의 영상이 포함하는 메타데이터(텍스트 정보)도 함께 검색한다.
검색부(300)는 유사영상이 포함하는 텍스트 정보를 이용하여 후보집단을 설정하고, 후보집단이 포함하는 텍스트 정보 중 기설정된 빈도 이상의 텍스트 정보를 입력영상에 대한 텍스트 정보로 선정한다.
즉, 검색부(300)는 영상 및 메타데이터 DB 내의 영상의 특징 정보와 입력영상의 특징 정보를 비교하여 유사영상을 선택하고, 선택한 유사영상이 포함하는 텍스트 정보의 집합인 입력영상에 대한 텍스트 정보 후보집단을 설정하고, 후보집단이 포함하는 복수의 텍스트 정보 중 기설정된 빈도 이상(예: 3회 이상 검색된 텍스트 정보)의 텍스트 정보를 영상입력부(100)가 수신한 입력영상에 대한 텍스트 정보로 선정한다.
또한, 본 발명에 따른 영상주석구성부(400)는 검색부(300)가 선정한 입력영상에 대한 텍스트 정보를 분석하여 키워드 리스트(keyword list)를 구성하고, 키워드 리스트가 포함하는 텍스트 정보를 처리하여 입력영상이 포함하고 있는 내용을 문장으로 표현하는 영상 주석을 생성한다.
영상주석구성부(400)는 단순히 입력영상이 포함하는 객체를 기술(description)하는 것이 아니라, 입력영상이 포함하는 객체에 해당하는 키워드 리스트 내의 텍스트 정보에 대한 의미론적 해석(semantic analysis)을 통하여, 입력영상에 대한 영상 주석을 생성한다.
도 3을 참조하면, 본 발명의 적용에 따라 생성된 영상 주석을 포함하는 영상은 도 2의 기본정보(이름, 크기, 해상도 등)만을 포함하는 단순 영상과 차별화되어, 영상이 지니고 있는 구체적인 정보, 즉 객체의 이름(예: 세계지도, 흑판, 지리 선생님, 지우개, 청색수트, 회색바지, 검은 구두, 모니터, PC 본체, 스피커, 테이블), 객체의 위치 및 상호 관계(예: 테이블 위에 있는 PC는), 입력영상에 대한 의미론적 해석을 통한 영상 주석(서울에서 시드니까지의 거리, 모니터 화면상의 오페라 하우스 및 세계 지도상에서의 시드니의 위치, 선생님의 수업과목 등)을 구성하고, 영상이 포함하는 내용을 문장으로 표현하는 영상 주석(예: 오페라 하우스는 호주 시드니에 있는, 조영필 지리 선생님 강의)를 생성한다.
영상주석구성부(400)는 검색부(300)가 선정한 유사영상 및 유사영상이 포함하는 텍스트 정보를 이용하여, 영상이 포함하는 내용을 문장으로 표현하는 영상 주석을 다국적 언어로 구성하는 것이 가능하다.
즉, 영상주석구성부(400)는 키워드 리스트를 이용하여 입력영상이 포함하는 복수의 객체의 조합 또는 복수의 객체 중 적어도 어느 하나의 객체에 대한 영상 주석을 생성한다.
도 5는 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 방법을 나타내는 순서도이다.
도 5를 참조하면, 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 방법은 입력영상을 수신하는 영상 입력 단계(S100)와, 영상 입력 단계(S100)에서 수신한 입력영상의 특징 정보를 추출하는 특징정보 추출 단계(S200)와, 추출한 특징 정보를 이용하여 입력영상과 유사한 영상을 검색하고, 유사영상이 포함하는 텍스트 정보를 검색하는 유사영상 및 텍스트 정보 검색 단계(S300)와, 입력영상의 특징 정보 및 유사영상이 포함하는 텍스트 정보를 분석하여 입력영상에 대한 텍스트 정보를 선정하는 텍스트 정보 선정 단계(S400) 및 선정한 텍스트 정보를 이용하여 키워드 리스트를 구성하고, 키워드 리스트를 이용하여 입력영상에 대한 영상 주석을 구성하는 키워드 리스트 및 영상주석 구성 단계(S500)를 포함한다.
특징정보 추출 단계(S200)는 입력영상을 분석하여, 입력영상 내의 객체의 색상, 질감, 이름, 모양, 위치, 객체간의 상호 관계 중 적어도 어느 하나를 포함하는 특징 정보를 추출한다.
유사영상 및 텍스트 정보 검색 단계(S300)는 클라우드 환경, 웹 또는 서버에서 수집한 영상과 영상의 특징 정보 및 텍스트(메타데이터)로 구성된 영상 및 메타데이터 DB 내의 영상으로부터 추출한 특징 정보와 영상 입력 단계(S100)에서 수신한 입력영상의 특징 정보를 비교하여 유사도를 산출하고, 산출한 유사도가 높은 영상을 입력영상의 유사영상으로 선택한다.
텍스트 정보 선정 단계(S400)는 영상 및 메타데이터 DB가 포함하는 영상 중 유사영상으로 선택된 영상이 포함하는 텍스트 정보를 이용하여 영상 입력 단계(S100)에서 수신한 입력영상에 대한 영상주석을 구성할 후보로서 후보집단을 설정하고, 후보집단 중 적어도 어느 하나의 텍스트 정보에 대한 선택 정보를 수신하여 입력영상에 대한 텍스트 정보를 선정하거나, 후보집단을 구성하는 텍스트 정보 중 기설정된 빈도 이상의 텍스트 정보를 입력영상에 대한 텍스트 정보로 선정한다.
즉, 영상 및 메타데이터 DB 내의 영상의 특징 정보 및 입력영상의 특징 정보를 비교하여, 영상 및 메타데이터 DB 내의 영상 중 입력영상과 유사한 영상을 선택하고, 유사영상이 포함하는 텍스트 정보 중 검색 빈도가 높은 텍스트 정보를 입력영상에 대한 텍스트 정보로 선정한다.
또한, 키워드 리스트 및 영상주석 구성 단계(S500)는 텍스트 정보 선정 단계(S400)에서 선정한 입력영상에 대한 텍스트 정보를 이용하여 키워드 리스트를 생성하고, 키워드 리스트를 이용하여 입력영상이 포함하는 복수의 객체의 조합 또는 복수의 객체 중 적어도 어느 하나의 객체에 대한 영상 주석을 생성한다.
이 때, 키워드 리스트 및 영상주석 구성 단계(S500)는 키워드 리스트 내에 포함되는 텍스트 정보에 대하여 의미론적 해석(semantic analysis) 기법을 적용하여, 입력영상이 포함하는 객체에 대한 기술(description)은 물론이고, 입력영상이 포함하는 내용을 표현하는 문장을 입력영상에 대한 영상 주석으로 생성한다.
본 발명의 또 다른 면에 따른 시각언어 기반의 영상주석 자동 생성 시스템은 입력영상을 수신하고, 입력영상 및 입력영상에 대한 영상주석 요청 신호를 송신하는 단말 및 단말로부터 입력영상 및 입력 영상에 대한 영상주석 요청 신호를 수신하고, 입력영상의 특징 정보를 추출하고, 입력영상의 특징 정보에 따라 영상 및 메타데이터 DB를 검색하여 입력영상에 대한 영상 주석을 구성하는 서버를 포함하여 구성된다.
이 때, 서버는 단말로부터 수신한 입력영상을 분석하여, 입력영상이 포함하는 객체의 색상, 질감, 이름, 모양, 위치 및 복수의 객체 간의 상호 관계 중 적어도 어느 하나를 입력영상의 특징 정보로 추출한다.
또한, 서버는 클라우드 컴퓨팅, 웹 또는 타 서버에서 기수집된 영상과, 영상에 대한 특징 정보 및 텍스트를 포함하는 영상 및 메타데이터 DB를 검색하여 입력영상에 대한 유사영상을 선택한다.
즉, 서버는 입력영상으로부터 추출한 특징정보(예: 객체의 색상, 질감, 이름, 모양, 위치 및 복수의 객체 간의 상호 관계)와 영상 및 메타데이터 DB가 포함하는 영상으로부터 추출된 특징 정보(예: 객체의 색상, 질감, 이름, 모양, 위치 및 복수의 객체 간의 상호 관계)를 비교하여 유사도를 산출하고, 유사도가 높은 영상을 입력영상의 유사영상으로 선택한다.
서버는 유사영상이 포함하는 텍스트 정보를 이용하여 후보집단을 설정하고, 후보집단 중 기설정된 빈도 이상의 텍스트 정보를 입력영상에 대한 텍스트 정보로 선정한다.
따라서, 입력영상과 유사한 영상이 포함하는 텍스트 정보가 복수인 경우, 복수의 텍스트 정보 중 검색 빈도가 가장 높은 텍스트 정보를 입력영상에 대한 텍스트 정보로 선정함으로써, 영상 주석을 이용하여 영상 콘텐츠를 검색하는 경우 정확한 검색을 도모하는 추가적인 효과를 기대할 수 있다.
또한, 서버는 후보집단 중 적어도 어느 하나의 텍스트 정보에 대한 선택 정보를 수신하고, 선택 정보에 따라 입력영상에 대한 텍스트 정보를 선정한다.
즉, 본 발명에 따른 시각언어 기반의 영상주석 자동 생성 시스템은 입력영상과 유사한 영상으로 선택된 영상 및 메타데이터 DB 내의 영상이 포함하는 텍스트 정보의 집합을 입력영상에 대한 영상 주석 구성을 위한 후보집단으로 설정하고, 후보집단에 포함된 텍스트 정보 중 기설정된 빈도 이상의 텍스트 정보를 이용하여 영상 주석을 구성하거나, 후보집단에 포함된 텍스트 정보에 대한 사용자 입력을 통한 선택 정보를 수신하여 선택된 텍스트 정보를 이용하여 영상 주석을 구성하는 것이 가능하다.
이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100: 영상입력부 200: 영상분석부
300: 검색부 400: 영상주석구성부

Claims (18)

  1. 입력영상을 수신하는 영상입력부;
    상기 영상입력부가 수신한 입력영상의 특징 정보를 추출하는 영상분석부;
    상기 영상분석부가 추출한 특징 정보를 이용하여 상기 입력영상에 대한 유사영상 및 상기 유사영상이 포함하는 텍스트 정보를 검색하여, 상기 입력영상에 대한 텍스트 정보를 선정하는 검색부; 및
    상기 검색부가 선정한 텍스트 정보를 분석하여 키워드 리스트를 생성하고, 상기 키워드 리스트 내의 텍스트 정보에 대한 의미론적 해석을 통해 상기 입력영상에 대한 영상 주석을 구성하는 영상주석구성부를 포함하고,
    상기 검색부는 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보를 수신하고, 상기 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보 및 상기 입력영상의 특징 정보를 비교하여, 상기 입력영상에 대한 유사영상을 선택하고, 상기 유사영상이 포함하는 텍스트 정보를 이용하여 후보집단을 설정하고, 상기 후보집단이 포함하는 텍스트 정보 중 기설정된 빈도 이상의 텍스트 정보를 상기 입력영상에 대한 텍스트 정보로 선정하고,
    상기 영상주석구성부는 상기 키워드 리스트 내에 포함되는 텍스트 정보에 대하여 의미론적 해석 기법을 적용하여, 상기 입력영상이 포함하는 복수의 객체의 조합에 대해 상기 입력영상이 포함하는 내용을 문장으로 표현하는 상기 영상 주석을 생성하는 것
    인 시각언어 기반의 영상주석 자동 생성 장치.
  2. 제1항에 있어서, 상기 영상분석부는
    상기 입력영상을 분석하여, 상기 입력영상이 포함하는 객체의 색상, 질감, 이름, 모양, 위치 및 객체 간의 위치 관계 중 적어도 어느 하나를 상기 입력영상의 특징 정보로 추출하는 것
    인 시각언어 기반의 영상주석 자동 생성 장치.
  3. 삭제
  4. 제1항에 있어서, 상기 검색부는
    상기 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보 및 상기 입력영상의 특징 정보의 유사도를 산출하고, 상기 산출한 유사도가 기설정값 이상인 상기 영상 및 메타데이터 DB가 포함하는 영상을 상기 입력영상에 대한 유사영상으로 선택하는 것
    인 시각언어 기반의 영상주석 자동 생성 장치.
  5. 삭제
  6. 삭제
  7. (a) 입력영상을 수신하는 영상 입력 단계;
    (b) 상기 영상 입력 단계에서 수신한 입력영상의 특징 정보를 추출하는 특징정보 추출 단계;
    (c) 상기 추출한 특징 정보를 이용하여 상기 입력영상과 유사한 영상을 검색하고, 유사영상이 포함하는 텍스트 정보를 검색하는 유사영상 및 텍스트 정보 검색 단계;
    (d) 상기 입력영상의 특징 정보 및 상기 유사영상이 포함하는 텍스트 정보를 분석하여 상기 입력영상에 대한 텍스트 정보를 선정하는 텍스트 정보 선정 단계; 및
    (e) 상기 선정한 텍스트 정보를 이용하여 키워드 리스트를 구성하고, 상기 키워드 리스트 내의 텍스트 정보에 대한 의미론적 해석을 통해 상기 입력영상이 포함하는 복수의 객체의 조합에 대해 상기 입력영상이 포함하는 내용을 문장으로 표현하는 영상 주석을 생성하는 단계를 포함하고,
    상기 (d) 단계는 메타데이터 DB 내의 유사영상이 포함하는 텍스트 정보를 이용하여 후보집단을 설정하고, 상기 후보집단 중 적어도 어느 하나의 텍스트 정보에 대한 선택 정보를 수신하여 상기 입력영상에 대한 텍스트 정보를 선정하거나, 상기 후보집단 중 기설정된 빈도 이상의 텍스트 정보를 상기 입력영상에 대한 텍스트 정보로 선정하고,
    상기 (e) 단계는 상기 (d) 단계에서 선정한 상기 입력영상에 대한 텍스트 정보를 이용하여 키워드 리스트를 생성하고, 상기 키워드 리스트를 이용하여 상기 입력영상이 포함하는 복수의 객체의 조합에 따라 상기 입력영상이 포함하는 내용을 문장으로 표현하는 상기 영상 주석을 생성하는 것
    인 시각언어 기반의 영상주석 자동 생성 방법.
  8. 제7항에 있어서, 상기 (b) 단계는
    상기 입력영상을 분석하여, 상기 입력영상 내의 객체의 색상, 질감, 이름, 모양, 위치, 객체간의 상호 관계 중 적어도 어느 하나를 포함하는 특징 정보를 추출하는 것
    인 시각언어 기반의 영상주석 자동 생성 방법.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 입력영상을 수신하고, 상기 입력영상 및 상기 입력영상에 대한 영상주석 요청 신호를 송신하는 단말; 및
    상기 단말로부터 상기 입력영상 및 입력 영상에 대한 영상주석 요청 신호를 수신하고, 상기 입력영상의 특징 정보를 추출하고, 상기 입력영상의 특징 정보에 따라 영상 및 메타데이터 DB를 검색하여 생성한 키워드 리스트 내의 텍스트 정보에 대한 의미론적 해석을 통해 상기 입력영상에 대한 영상 주석을 구성하는 서버를 포함하고,
    상기 서버는 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보를 수신하고, 상기 영상 및 메타데이터 DB가 포함하는 영상의 특징 정보 및 상기 입력영상의 특징 정보를 비교하여, 상기 입력영상에 대한 유사영상을 선택하고, 상기 유사영상이 포함하는 텍스트 정보를 이용하여 후보집단을 설정하고, 상기 후보집단이 포함하는 텍스트 정보 중 기설정된 빈도 이상의 텍스트 정보를 상기 입력영상에 대한 텍스트 정보로 선정하고, 상기 키워드 리스트 내에 포함되는 텍스트 정보에 대하여 의미론적 해석 기법을 적용하여, 상기 입력영상이 포함하는 복수의 객체의 조합에 대해 상기 입력영상이 포함하는 내용을 문장으로 표현하는 상기 영상 주석을 생성하는 것
    인 시각언어 기반의 영상주석 자동 생성 시스템.
  13. 제12항에 있어서, 상기 서버는
    상기 단말로부터 수신한 입력영상을 분석하여 상기 입력영상이 포함하는 객체의 색상, 질감, 이름, 모양, 위치, 객체 간의 상호 관계 중 적어도 어느 하나를 상기 입력영상의 특징 정보로 추출하는 것
    인 시각언어 기반의 영상주석 자동 생성 시스템.
  14. 제12항에 있어서, 상기 서버는
    클라우드 컴퓨팅, 웹 또는 타 서버에서 기수집한 영상, 상기 영상에 대한 특징 정보 및 텍스트를 포함하는 상기 영상 및 메타데이터 DB를 검색하여 상기 입력영상에 대한 유사영상을 선택하는 것
    인 시각언어 기반의 영상주석 자동 생성 시스템.
  15. 삭제
  16. 삭제
  17. 삭제
  18. 제12항에 있어서, 상기 서버는
    상기 후보집단 중 적어도 어느 하나의 텍스트 정보에 대한 선택 정보를 수신하고, 상기 선택 정보에 따라 상기 입력영상에 대한 텍스트 정보를 선정하는 것
    인 시각언어 기반의 영상주석 자동 생성 시스템.
KR1020130153299A 2013-12-10 2013-12-10 시각언어 기반의 영상주석 자동 생성 장치 및 방법 KR102156440B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130153299A KR102156440B1 (ko) 2013-12-10 2013-12-10 시각언어 기반의 영상주석 자동 생성 장치 및 방법
US14/320,362 US9606975B2 (en) 2013-12-10 2014-06-30 Apparatus and method for automatically generating visual annotation based on visual language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130153299A KR102156440B1 (ko) 2013-12-10 2013-12-10 시각언어 기반의 영상주석 자동 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150067899A KR20150067899A (ko) 2015-06-19
KR102156440B1 true KR102156440B1 (ko) 2020-09-17

Family

ID=53271333

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130153299A KR102156440B1 (ko) 2013-12-10 2013-12-10 시각언어 기반의 영상주석 자동 생성 장치 및 방법

Country Status (2)

Country Link
US (1) US9606975B2 (ko)
KR (1) KR102156440B1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170037302A (ko) * 2015-09-25 2017-04-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
US9984100B2 (en) * 2015-09-29 2018-05-29 International Business Machines Corporation Modification of images and associated text
CN105740402B (zh) * 2016-01-28 2018-01-02 百度在线网络技术(北京)有限公司 数字图像的语义标签的获取方法及装置
US9934431B2 (en) * 2016-07-27 2018-04-03 Konica Minolta Laboratory U.S.A., Inc. Producing a flowchart object from an image
CN106469299B (zh) * 2016-08-31 2019-07-19 北京邮电大学 一种车辆搜索方法及装置
US20180137660A1 (en) * 2016-11-11 2018-05-17 Microsoft Technology Licensing, Llc Responsive customized digital stickers
US20180197221A1 (en) * 2017-01-06 2018-07-12 Dragon-Click Corp. System and method of image-based service identification
US10498851B2 (en) * 2017-01-10 2019-12-03 International Business Machines Corporation Method of label transform for managing heterogeneous information
CN108154091A (zh) * 2017-12-11 2018-06-12 北京小米移动软件有限公司 图像展示方法、图像处理方法及装置
KR102660613B1 (ko) * 2021-02-26 2024-04-25 차형경 언어교육 보조 시스템용 사용자 기기

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100471927B1 (ko) * 2001-10-08 2005-03-08 학교법인 한국정보통신학원 웹 기반 영상 데이터 검색 시스템 및 그 방법
KR100644016B1 (ko) * 2002-12-18 2006-11-10 삼성에스디에스 주식회사 동영상 검색 시스템 및 방법
KR100490734B1 (ko) 2002-12-21 2005-05-24 한국전자통신연구원 주석기반 문서 자동 생성장치 및 방법
US8132255B2 (en) 2008-06-16 2012-03-06 Intel Corporation Generating a challenge response image including a recognizable image
JP5056695B2 (ja) * 2008-09-24 2012-10-24 富士ゼロックス株式会社 類似画像提示装置及びプログラム
US8401342B2 (en) * 2009-01-16 2013-03-19 A9.Com, Inc. System and method to match images using topologically equivalent correspondences
KR101545138B1 (ko) * 2010-12-23 2015-08-19 에스케이플래닛 주식회사 증강 현실을 이용한 광고 제공 방법과 그를 위한 시스템, 장치 및 단말기
KR101767269B1 (ko) * 2011-04-25 2017-08-10 한국전자통신연구원 영상 검색 장치 및 방법
US8891907B2 (en) * 2011-12-06 2014-11-18 Google Inc. System and method of identifying visual objects

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jen-Yuan Yeh 외, ‘Text summarization using a trainable summarizer and latent semantic analysis’, ScienceDirect, Information Processing and Management 41, 2005.*

Also Published As

Publication number Publication date
US9606975B2 (en) 2017-03-28
US20150161094A1 (en) 2015-06-11
KR20150067899A (ko) 2015-06-19

Similar Documents

Publication Publication Date Title
KR102156440B1 (ko) 시각언어 기반의 영상주석 자동 생성 장치 및 방법
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
US9727584B2 (en) Refining image annotations
CN113709561B (zh) 视频剪辑方法、装置、设备及存储介质
US20140328570A1 (en) Identifying, describing, and sharing salient events in images and videos
WO2019169872A1 (zh) 搜索内容资源的方法、装置和服务器
US10489447B2 (en) Method and apparatus for using business-aware latent topics for image captioning in social media
JP2020528705A (ja) 認知的洞察を使用したビデオ・シーンの移動
US20150169527A1 (en) Interacting method, apparatus and server based on image
CN107430687A (zh) 视频流的基于实体的时间分割
CN110516096A (zh) 合成感知数字图像搜索
CN104462056B (zh) 用于呈现基于知识的信息的方法和信息操纵系统
CN113094552A (zh) 视频模板的搜索方法、装置、服务器及可读存储介质
CN109408672B (zh) 一种文章生成方法、装置、服务器及存储介质
US20150006573A1 (en) Information processing terminal and method, and information management apparatus and method
KR102111720B1 (ko) 클라우드 저작물 분석을 통한 디자인 추천 방법
CN107992937B (zh) 基于深度学习的非结构化数据判决方法和装置
CN113806588B (zh) 搜索视频的方法和装置
Kaneko et al. Visual event mining from geo-tweet photos
CN112380356A (zh) 用于构建配餐知识图谱的方法、装置、电子设备及介质
CN113408208B (zh) 模型训练方法、信息提取方法、相关装置及存储介质
Mahapatra et al. Automatic hierarchical table of contents generation for educational videos
CN117474748A (zh) 一种图像生成方法、装置、电子设备及存储介质
KR102122918B1 (ko) 대화형 질의응답 장치 및 그 방법
KR20230051995A (ko) 실감형 확장현실 콘텐츠 관리 플랫폼

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant