KR20150079064A - 자동 태깅 시스템 및 그 방법 - Google Patents

자동 태깅 시스템 및 그 방법 Download PDF

Info

Publication number
KR20150079064A
KR20150079064A KR1020130169041A KR20130169041A KR20150079064A KR 20150079064 A KR20150079064 A KR 20150079064A KR 1020130169041 A KR1020130169041 A KR 1020130169041A KR 20130169041 A KR20130169041 A KR 20130169041A KR 20150079064 A KR20150079064 A KR 20150079064A
Authority
KR
South Korea
Prior art keywords
still image
image
semantic information
extracting
automatic tagging
Prior art date
Application number
KR1020130169041A
Other languages
English (en)
Other versions
KR102259207B1 (ko
Inventor
김병민
유창동
이경님
권재철
박상혁
이동훈
정준영
Original Assignee
주식회사 케이티
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티, 한국과학기술원 filed Critical 주식회사 케이티
Priority to KR1020130169041A priority Critical patent/KR102259207B1/ko
Publication of KR20150079064A publication Critical patent/KR20150079064A/ko
Application granted granted Critical
Publication of KR102259207B1 publication Critical patent/KR102259207B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

자동 태깅 시스템 및 그 방법이 개시된다. 여기서, 자동 태깅 시스템은 정지 영상을 입력받는 입력부, 상기 정지 영상을 해석하여 객체의 시각적인 특징을 포함하는 물리적인 정보를 추론하는 물리적 정보 추출부, 상기 정지 영상을 해석하여 상기 정지 영상의 속성에 해당하는 의미론적인 정보를 추론하는 의미론적 정보 추출부, 그리고 상기 정지 영상의 메타 데이터, 상기 물리적인 정보 및 상기 의미론적인 정보를 통합하여 상기 정지 영상에 태깅하는 자동 태깅부를 포함한다.

Description

자동 태깅 시스템 및 그 방법{AUTOMATIC TAGING SYSTEM AND METHOD THEREOF}
본 발명은 자동 태깅 시스템 및 그 방법에 관한 것이다.
클라우드 컴퓨팅과 소셜 네트워크 등의 서비스가 대중화되면서 개개인이 생산하는 정지 영상 및 동영상 컨텐츠가 기하급수적으로 급증하고 있다. 이러한 영상 컨텐츠 들을 효율적으로 관리하기 위하여 영상 콘텍스트를 자동으로 분석하고 태그를 달아주는 시스템의 필요성이 대두되고 있다. 앞서 언급된 콘텍스트라 함은 영상 컨텐츠가 가지는 문맥 및 상황 정보를 얘기한다.
최근에 영상 신호 처리와 기계 학습 분야가 발전함에 따라서 영상이 입력되면 자동적으로 주어진 영상의 배경과 전경을 분할하고 영상 내에 포함되어 있는 객체를 인식할 수 있는 알고리즘들이 많이 개발되었다.
따라서 종래에 영상 처리 시스템은 영상 컨텐츠 안에 속해 있는 배경과 객체들의 물리적인 정보 및 의미론적인 정보를 추출한다. 영상의 자동 태깅 및 검색과 같은 응용분야에서 활용이 가능하다.
종래의 영상 컨텐츠에 대한 자동 태깅은 컨텐츠가 만들어질 당시에 기록된 메타 데이터 즉, 시간, 장소, 노출, 촬영 장비만을 사용하거나 집단 지성을 활용하는 방법이 주를 이루었다.
또한, 종래에는 사용자가 직접 영상 컨텐츠에 태그를 입력하는 방법이 주로 사용되고 있다. 주로 사용자 간의 정보 공유를 유도함으로써 집단 지성을 활용하는 방법이라고 볼 수 있다.
이처럼, 종래에 영상 컨텐츠에 대한 자동 태길은 인간의 수동 태깅 즉, 집단 지성 혹은 개인을 유도하거나 자동 태깅을 하더라도 컨텐츠 안의 물리적인 정보에 국한되어 있다.
따라서, 본 발명이 이루고자 하는 기술적 과제는 사용자가 저장하고자 하는 정지 영상을 입력받아 자동적으로 영상 콘텍스트를 이해하고 물리적인 정보, 의미론적인 정보, 메타 데이터를 추론하여 자동 태깅하는 시스템 및 그 방법을 제공하는 것이다.
본 발명의 하나의 특징에 따르면, 자동 태깅 시스템은 정지 영상을 입력받는 입력부, 상기 정지 영상을 해석하여 객체의 시각적인 특징을 포함하는 물리적인 정보를 추론하는 물리적 정보 추출부, 상기 정지 영상을 해석하여 추상적인 개념 또는 상황을 묘사하는 영상의 속성에 해당하는 의미론적인 정보를 추론하는 의미론적 정보 추출부, 그리고 상기 정지 영상의 메타 데이터, 상기 물리적인 정보 및 상기 의미론적인 정보를 통합하여 상기 정지 영상에 태깅하는 자동 태깅부를 포함한다.
상기 물리적 정보 추출부는,
상기 정지 영상으로부터 배경 전경을 분리하는 배경 분리 모듈, 그리고 상기 배경 전경이 분리된 분할 영상으로부터 특징을 추출하여 객체를 인식하는 객체 인식 모듈을 포함할 수 있다.
상기 배경 분리 모듈은,
상기 정지 영상의 픽셀들중 유사한 성격을 가진 픽셀들을 결합하여 슈퍼 픽셀을 생성하고, 상기 슈퍼 픽셀로부터 특징 벡터를 추출하며, 상기 특징 벡터를 이용하여 상기 슈퍼 픽셀이 결합된 상기 배경 전경이 분리된 분할 영상을 생성할 수 있다.
상기 배경 분리 모듈은,
색상, 질감, 형태, 위치, 비주얼 워드(visual word)를 포함하는 특징 벡터를 추출할 수 있다.
상기 객체 인식 모듈은,
상기 분할 영상에서 객체 분류를 통해 복수의 객체를 인식할 수 있다.
상기 의미론적 정보 추출부는,
상기 정지 영상 및 배경 전경 영상에 기 정의된 생성 모델을 적용하여 영상 속성을 추출할 수 있다.
본 발명의 다른 특징에 따르면, 자동 태깅 방법은 자동 태깅 시스템이 정지 영상을 입력받는 단계, 상기 정지 영상을 해석하여 객체의 시각적인 특징을 포함하는 물리적인 정보를 추론하는 단계, 상기 정지 영상을 해석하여 추상적인 개념 또는 상황을 묘사하는 영상의 속성에 해당하는 의미론적인 정보를 추론하는 단계, 그리고 상기 정지 영상의 메타 데이터, 상기 물리적인 정보 및 상기 의미론적인 정보를 통합하여 상기 정지 영상에 태깅하는 단계를 포함하고,
상기 물리적인 정보를 추론하는 단계 및 상기 의미론적인 정보를 추론하는 단계는 병렬적으로 동시에 수행될 수 있다.
상기 물리적인 정보를 추론하는 단계는,
상기 정지 영상으로부터 배경 전경을 분리하는 단계, 그리고 상기 배경 전경이 분리된 분할 영상으로부터 특징을 추출하여 객체를 인식하는 단계를 포함할 수 있다.
상기 분리하는 단계는,
상기 정지 영상의 픽셀들중 유사한 성격을 가진 픽셀들을 결합하여 슈퍼 픽셀을 생성하는 단계, 상기 슈퍼 픽셀로부터 특징 벡터를 추출하는 단계, 그리고 상기 특징 벡터를 이용하여 상기 슈퍼 픽셀이 결합된 상기 배경 전경이 분리된 분할 영상을 생성하는 단계를 포함할 수 있다.
상기 객체를 인식하는 단계는,
상기 분할 영상에서 색상, 픽셀 밝기, 기울기, 크기 및 회전에 불변한 특징을 포함하는 객체 인식을 위한 특징을 추출하는 단계, 그리고 추출된 특징들을 기계적 학습 알고리즘을 통과시켜 객체를 인식하는 단계를 포함할 수 있다.
상기 의미론적인 정보를 추론하는 단계는,
상기 정지 영상 및 상기 정지 영상으로부터 분리된 배경 전경 영상에 기 정의된 생성 모델을 적용하여 영상 속성을 추출할 수 있다.
상기 의미론적인 정보를 추론하는 단계는,
상기 정지 영상 및 상기 정지 영상의 추상적인 개념 또는 상황을 묘사하는 속성을 훈련하여 영상 속성을 추론할 수 있다.
본 발명의 실시예에 따르면, 정지 영상으로부터 물리적인 정보와 의미론적인 정보를 추론하여 영상의 이해 및 자동 태깅이 가능하므로, 사용자가 직접 태그를 달아야 하는 불편함을 없애주며, 정확하고 효율적인 영상 회수가 가능하다.
또한, 클라우딩 컴퓨팅이나 소셜 네트워크 등의 서비스에서 서버에 입력되는 정지 영상에 대해 시스템이 자동적으로 태그를 주어 저장하므로, 차후에 사용자가 원하는 영상을 효율적으로 검색할 수 있다.
또한, 사용자의 정지영상에 달아진 태그와 자연어 처리 알고리즘을 바탕으로 해당 영상에 대한 간단한 설명을 부가하는 어플리케이션으로 활용이 가능하다.
도 1은 본 발명의 실시예에 따른 자동 태깅 시스템의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 자동 태깅 개념도이다.
도 3은 본 발명의 실시예에 따른 자동 태깅 방법을 나타낸 순서도이다.
도 4는 도 3의 S103 단계를 세부적으로 나타낸 순서도이다.
도 5는 도 3의 S105 단계를 세부적으로 나타낸 순서도이다.
도 6은 도 3의 S107 단계를 세부적으로 나타낸 순서도이다.
도 7은 본 발명의 실시예에 따른 의미론적 정보 추출을 위한 생성 모델 예시도이다.
도 8은 본 발명의 다른 실시예에 따른 자동 태깅 시스템의 개략적인 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
또한, 명세서에 기재된 "…부", "…모듈" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 도면을 참조로 하여 본 발명의 실시예에 따른 자동 태깅 시스템 및 그방법에 대하여 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 자동 태깅 시스템의 구성을 나타낸 블록도이고, 도 2는 본 발명의 실시예에 따른 자동 태깅 개념도이다.
먼저, 도 1을 참조하면, 자동 태깅 시스템(1)은 개인이 소장한 정지 영상을 임의의 저장 장치에 저장 또는 업로드하면, 자동 태깅 시스템(1)이 자동적으로 영상 내의 물리적인 정보와 의미론적인 정보를 추론한 후 메타 데이터와 함께 태그 정보를 생성하여 효율적으로 관리한다. 즉, 자동 태깅 시스템(1)은 영상 저장 장치(미도시)에 탑재되거나 또는 영상 저장 장치(미도시)와 연결되어 있을 수 있다.
또한, 자동 태깅 시스템(1)은 클라우딩 컴퓨팅 서버(미도시) 또는 소셜 네트워크 서버(미도시)에 탑재될 수 있다.
자동 태깅 시스템(1)은 영상 신호 처리와 기계 학습을 이용하여 정지 영상 내의 다중 객체를 인식하여 클래스 정보를 추론하고, 배경 및 전경이 지니는 의미론적인 정보를 추론하여 자동 태깅한다.
자동 태깅 시스템(1)은 정지 영상의 물리적인 정보, 의미론적인 정보를 추출하기 위한 독립된 모듈을 사용하고, 영상 신호 처리와 기계 학습에 기반한 알고리즘을 이용하여 각각의 모듈을 학습시킨다. 또한, 메타 데이터는 영상에 포함되어 있기 때문에 따로 학습 알고리즘을 사용하지 않으며, 물리적인 정보를 추출하는 방법에는 배경 전경 분리 및 객체 인식을 알고리즘을 사용하고 의미론적인 정보를 추출하기 위한 방법으로 딥러닝에 기반한 생성모델을 사용할 수 있다.
자동 태깅 시스템(1)은 정지 영상 입력부(100), 물리적 정보 추출부(200), 의미론적 정보 추출부(300) 및 자동 태깅부(400)를 포함한다.
여기서, 정지 영상 입력부(100)는 사용자 단말(미도시) 정지 영상을 업로드받는다.
이처럼, 정지 영상이 입력되면 물리적 정보 추출부(200) 및 의미론적 정보 추출부(300)는 병렬적으로 물리적 정보와 의미론적 정보를 각각 추론한다.
물리적 정보 추출부(200)는 정지 영상이 입력되면 배경 전경 분리와 객체 인식 알고리즘으로 물리적인 정보를 추출한다. 즉, 정지 영상에서 특징을 추출하여 배경과 전경을 분리하고, 분할 영역으로부터 특징을 추출하여 객체를 인식한다. 이러한 물리적 정보 추출부(200)는 배경 분리 모듈(210) 및 객체 인식 모듈(230)을 포함한다.
의미론적 정보 추출부(300)는 정지 영상으로부터 의미론적인 정보를 추출한다. 즉, 정지 영상과 속성 사이의 관계를 모델링하여 의미론적인 정보를 추론한다.
여기서, 의미론적인 정보는 정지 영상에 상응하는 속성에 해당된다. 속성의 예는 '갈기가 있는', '어린 남자 아이', 등의 추상적인 정보이다. 속성의 나열만으로 영상 콘텍스트를 서술하는 것이 가능하다. 객체의 시각적인 특징에 해당되는 저차원 정보들과는 확연히 구별되는 정보이다.
또한, 영상을 이해하고 속성을 찾을 수 있는 방법도 있다. 속성의 예를 들면, '동그란 구 모양', '구름이 낀', '맑은', '석양이 지는', '포유류', '털이 많은'등의 추상적인 정보로써 객체의 시각 정보에 크게 좌우되는 저차원 정보들과는 확연히 구별되는 정보이다.
실제로 사람 사이에 대화가 이루어질 때나 상대방에게 특정 상황을 설명할 때는 물리적인(저차원) 정보보다 의미론적인 정보가 더 큰 영향력을 발휘한다.
도 2의 (a)에 도시한 바와 같이, 주어진 정지 영상에는 물리적인 정보가 있지만, 실제로는 의미론적인 정보가 더 많이 담겨 있다.
도 2의 (b)에 따르면, 물리적 정보 추출부(200)는 정지 영상에서 특징을 추출하여 배경 전경을 분리한 후, 정지 영상을 배경 전경 영상 및 분리된 영상으로 분할한다. 물리적 정보 추출부(200)는 배경 전경이 분리된 영상에서 특징을 추출하여 물리적 정보인 객체를 인식한다. 여기서, 객체는 도 2의 (a)에서 안경쓴 성인 남성, 아이가 될 수 있다.
또한, 의미론적 정보 추출부(300)는 도 2의 (a)에서 입력받은 정지 영상에서 특징을 추출하고, 생성 모델을 통해 객체 및 상황을 이해하여 의미론적인 정보에 해당하는 속성을 생성한다. 즉, 이벤트를 인식하고, 소풍, 가족, 딸과 같은 의미론적인 정보를 생성한다.
자동 태깅부(400)는 추론된 물리적 정보 및 의미론적 정보의 신뢰도와 정지영상과 함께 주어진 메타 데이터를 추가한 후, 최종적으로 자동 태깅을 수행한다. 즉, 자동 태깅부(400)는 도 2의 (c)와 같이 '사람, 잔디, 나무'와 같은 물리적인 정보 태그를 생성한다. 그리고 '가족, 소풍, 성인 남성, 여자 아이, 안경을 쓴, 맑은 날, 뛰노는' 과 같은 의미론적인 정보 태그를 생성한다.
도 1 및 도 2를 통해 설명한 구성에 기초하여 자동 태깅 시스템(1)의 동작을 설명하면 다음과 같다. 이때, 도 1 및 도 2와 동일한 구성 요소에 대한 설명은 동일한 도면 부호를 사용하기로 한다.
도 3은 본 발명의 실시예에 따른 자동 태깅 방법을 나타낸 순서도이고, 도 4는 도 3의 S103 단계를 세부적으로 나타낸 순서도이며, 도 5는 도 3의 S105 단계는 세부적으로 나타낸 순서도이고, 도 6은 도 3의 S107 단계를 세부적으로 나타낸 순서도이고, 도 7은 본 발명의 실시예에 따른 의미론적 정보 추출을 위한 생성 모델 예시도이다.
도 3을 참조하면, 정지 영상 입력부(100)가 정지 영상을 입력받는다(S101). 물리적 정보 추출부(200)는 입력받은 정지 영상에서 배경 전경을 분리한다(S103).
여기서, 물리적 정보 추출부(200)의 배경 분리 모듈(210)은 배경 및 전경을 정지 영상으로부터 분리해줌으로써 객체 인식은 물론이고 정지 영상 내의 배경에 해당하는 영역까지 이해하고 하나의 객체로써 인식하기 위한 전처리 과정을 수행한다.
이때, 배경 및 전경 분리를 할 수 있는 방법은 다양하게 존재한다. 하나의 실시예에 따르면, '상관 군집(correlation clustering)'에 기반한 방법을 사용하여 훈련 데이터에 포함되지 않은 객체에 대해서도 일반적으로 적용이 가능하도록 할 수 있다. 배경 전경 분리의 일반적인 순서는 먼저 정지 영상의 픽셀 들을 슈퍼 픽셀이라는 더 큰 단위의 형태로 변환하고, 슈퍼 픽셀들을 결합해서, 더 큰 분할영역을 만들어가는 방법을 취한다. 분할 영역들이 자신이 속한 객체가 아닌 다른 객체의 경계선을 침범하지 않는다는 조건을 만족시키도록 최대한 결합하고, 최종적으로 만들어진 분할 영역들에 대해서는 객체 분류를 한다.
여기서, 도 4를 참조하면, 배경 분리 모듈(210)은 정지 영상이 입력되면 비슷한 성질을 지닌 픽셀들을 결합하여 슈퍼 픽셀들을 생성한다(S201). 슈퍼 픽셀은 배경전경 분리를 효율적으로 하기 위한 전처리 과정으로써 하나의 실시예에 따르면, UCM(ultrametric contour map)을 사용한다. 배경 전경 분리를 위해 슈퍼 픽셀들로부터 색상, 질감, 형태, 위치, 비주얼 워드(visual word) 등으로 이루어진 특징 벡터를 추출한다(S203). 그리고 추출된 특징 벡터들을 상관 군집(correlation clustering) 알고리즘의 입력으로 넣어 배경 전경 분리를 수행한다(S205). 상관 군집(correlation clustering)은 에너지 최소화 기법에 기반하여 훈련되는 알고리즘으로써 단일 슈퍼 픽셀의 특징 벡터와 인접한 두 슈퍼 픽셀 사이의 특징 벡터를 보고 에너지가 최소화 되는 방향으로 결합해 나간다.
좋은 성능을 얻기 위해서는 3차 이상의 슈퍼 픽셀들의 조합인 상위 텀(higher order term)의 설계가 중요하다. 여기서, 상위 텀(Higher order term)이란 정지 영상 내의 슈퍼 픽셀들의 조합으로 이루어진 덩어리, 덩어리들의 조합으로 이루어진 더 큰 덩어리, 큰 덩어리들이 결합하면 객체를 이루는 등의 계층적인 구조를 지닌다고 가정하고, 슈퍼 픽셀들이 올바르게 결합해 나가도록 하는 제약 조건이다.
배경 전경 분리에서 얻어지는 결과물은 객체를 이루는 큰 덩어리들로써 분할영역에 해당된다(S207). 이때, 기존의 상위 텀(higher order term)을 개선하기 위하여 RBM(restricted Boltzmann machine)을 활용한다. RBM은 확률을 에너지로 표현하는 무방향 그래프로 비교사 학습법에 의하여 훈련데이터의 구조를 학습하여 훈련데이터에 대해 에너지를 최소화 해주는 생성모델이다.. RBM의 확률 분포는 다음과 같이 주어진다.
Figure pat00001
여기서, p(v)는 v에 대한 확률분포, v는 visible node, h는 hidden node을 의미한다.
배경 분리 모듈(210)은 다항 슈퍼 픽셀들의 특징들을 입력으로 받아서 입력 슈퍼 픽셀들이 같은 객체의 영역에 해당된다면 작은 에너지를 내어주어서 합치도록 하고, 만약 서로 다른 객체에 속해야 한다면 큰 에너지를 내어주어 합치지 않도록 한다. 수학식 1에 따르면 에너지가 작을수록 p(v)의 값 (v의 확률) 이 커지게 되는데 이는 같은 객체일 확률이 크다는 것을 의미한다.
RBM은 비교사 학습기법에 의하여 학습되므로 별도의 큰 노력 없이 상위 항목(higher order term)을 효과적으로 설계할 수 있다.
다시, 도 3을 참조하면, 객체 인식 모듈(230)은 배경 분리 모듈(210)이 출력하는 분할 영역(또는 분할 영상)으로부터 객체를 인식한다(S105).
여기서, 객체 인식 모듈(230)은 일반적으로 활용이 가능한 객체 분류기를 사용하는데, 하나의 실시예에서는 SVM(support vector machine)을 사용할 수 있다. 이때, SVM(support vector machine)은 데이터를 분리하는 초평면 중에서 서포트 벡터들과 가장 마진이 큰 (max-margin) 초평면을 선택하여 분리하는 기계학습 알고리즘의 하나이다.
이때, 도 5를 참조하면, 객체 인식 모듈(230)은 배경 전경 분리 알고리즘에 의해 생성된 분할 영역들이 어떤 객체에 해당되는지 객체 분류기를 이용해 분류한다.
객체 인식 모듈(230)은 분할 영상이 입력되면 객체 인식을 위한 특징을 추출(S301)하는데 색상, 픽셀 밝기, 기울기, SIFT(Scale Invariant Feature Transform)를 사용할 수 있다. SIFT란 크기와 회전에 불변한 특징을 추출하는 것, 그리고 이를 이용해서 탐지(Detection) 나 인식(Recognition)에 응용한다. 객체 분류용 SVM은 RBF(radius basis function) 커널을 사용할 수 있다.
즉, 객체 인식 모듈(230)은 배경 전경 분리 이후 분할 영역들에 대하여 객체 분류함(S303)으로써 정지 영상으로부터 다중 객체를 인식할 수 있다(S305). 종래에는 일반적인 객체 인식은 하나의 정지 영상으로부터 한 개의 객체를 인식할 수 있었다.
다시, 도 3을 참조하면, 의미론적 정보 추출부(300)는 영상 속성(어트리뷰트, attribute)를 생성한다(S107).
이때, 도 6을 참조하면, 의미론적 정보 추출부(300)는 정지 영상을 입력받아 추상적인 개념이나 상황을 묘사하는 속성을 추출(S401, S403)하기 위하여 딥러닝 기술에 기반한 생성 모델을 사용(S405)하여 영상 속성 즉 어트리뷰트를 생성한다. 이처럼 생성된 속성이 자동 태깅에 사용된다. 이때, 정지 영상으로부터 의미론적인 특징의 추출 및 배경 전경 영상에서 의미론적인 특징의 추출일 수 있다.
여기서, 생성 모델은 정지 영상 및 속성이라는 두 모드의 데이터를 입력으로 받아 훈련되고 각 모드의 입력 데이터(영상 혹은 속성)를 여러 개의 잠복 층을 이용해 모델링한다.
생성모델 즉 기계학습 분야의 제안된 그래프 모델 중 한 구조를 통해 할 수 있는 일은 크게 두 가지이다. 정지영상이 들어왔을 때 그 영상의 속성, 즉, 노을이 진, 날씨가 맑은, 산이 있는, 바다가 있는과 같은 속성을 생성한다. 그리고 속성을 입력으로 주었을 때, 해당 속성들을 포함하거나 유사성이 높은 콘텍스트를 지닌 정지 영상을 생성하거나 회수한다.
이때, 생성 모델을 "훈련"시키는 과정을 거쳐야한다. 기계학습이 추구하는 바는, 어떤 입력이 주어졌을 때 원하는 출력을 내어주는 함수를 수학적으로 즉, 주로 통계와 확률에 기반하여 목적함수를 최적화시켜 얻는 것이다. 그러기 위해서는 입력과 출력을 모두 포괄하는 훈련용 데이터(경험) 가 필요하다. 인간이 경험을 통해 학습하듯이 생성모델(기계)도 훈련용 데이터를 통해 자신의 파라미터(parameter)를 최적화시켜서 결국에는 입력이 들어오면 그 입력에 알맞은 출력을 내어주는 함수를 스스로 학습하게 된다.
즉, 생성 모델은 영상 속성을 입력받는데, 훈련 과정에서 정지 영상과 그 정지 영상의 속성을 입력받는다. 그리고 많은 훈련용 정지영상-속성 쌍(pair)을 이용해서 생성 모델이 훈련이 끝난 후에는 전혀 새로운 정지 영상이 들어왔을 때, 기계 훈련 과정에서 최적화 되어진 파라미터(parameter)들을 이용하여 속성들을 생성할 수 있게 된다. 이때, 속성은 사전에 생성모델을 학습시키는 훈련용 속성과 실제 사용상 완전히 새로운 종류의 정지영상이 들어올 때의 테스트 영상으로 구분된다.
모델 최상위에는 잠복 층을 추가하여 두 모드를 이어주게 된다. 이렇게 만들어진 생성모델은 정지영상이 들어오면 정지영상과 연관성이 높은 속성을 생성해주고, 반대로 다수의 속성을 입력으로 받으면 입력된 속성들과 연관성이 높은 정지영상을 회수해준다.
일반적으로는 최상위에 연결된 잠복 층이 두 종류의 입력 사이의 관계를 모델링하는 교두보 역할을 해주지만, 실제로 입력 데이터들이 일관되지 않고 다양한 분포를 가질 때는 한계를 가지게 된다. 예를 들면, 자연경관들로만 이루어진 영상 데이터가 들어오면 일관성이 존재하지만, 실제로는 자연경관, 도시배경, 실내영상까지 포함하는 영상 데이터가 있을 수 있다.
한 실시예에 따르면, 다양한 종류의 영상(자연경관, 도시배경, 실내, 인물, 객체)과 입력 쿼리의 관계를 더 잘 모델링하기 위해서 모델 최상위에 존재하는 한 개의 잠복 층을 다수로 확장하고 각 잠복 층이 제각기 다른 분포 예를들면, 자연경관, 도시배경, 실내영상을 모델링한다.
이때, 도 7을 참조하면, 정지 영상 데이터와 속성 데이터에 대한 두 개의 생성 모델이 있다. 그리고 두 생성 모델 최상위의 잠복 층들과 게이팅 함수(Gating function)에 의해 연결된다. 각 생성 모델의 잠복층은 RBM을 이용하여 층마다 순차적으로 학습하고 전체 모델 최상위의 h_natural^3, h_urban^3, h_indoor^3, h_i^2, h_t^2 는 mixture of RBMs으로 학습한다. 이러한 생성 모델의 전 훈련 과정은 비교사 학습기법을 따른다.
다시, 도 3을 참조하면, 자동 태깅부(400)는 정지 영상의 메타 데이터와 함께 S105 단계에서 추론된 물리적인 정보, S107 단계에서 추론된 의미론적인 정보를 통합하여 자동으로 태그를 생성한다(S109). 즉, 추론된 물리적 정보 및 의미론적 정보를 취합하여 정지 영상에 포함된 메타데이터까지 총 세 부류의 정보를 영상에 자동 태깅한 후 저장한다.
한편, 도 8은 본 발명의 다른 실시예에 따른 자동 태깅 시스템의 개략적인 도면으로, 도 1을 참고하여 설명한 자동 태깅 시스템의 정지 영상 입력부(100), 물리적 정보 추출부(200), 의미론적 정보 추출부(300) 및 자동 태깅부(400)의 기능 중 적어도 일부를 수행하는데 사용할 수 있는 장치를 나타낸다.
도 8을 참고하면, 자동 태깅 시스템(500)은 프로세서(501), 메모리(503), 적어도 하나의 저장장치(505), 입출력(input/output, I/O) 인터페이스(507) 및 네트워크 인터페이스(509)를 포함한다.
프로세서(501)는 중앙처리 유닛(central processing unit, CPU)이나 기타 칩셋, 마이크로프로세서 등으로 구현될 수 있으며, 메모리(503)는 동적 랜덤 액세스 메모리(DRAM), 램버스 DRAM(RDRAM), 동기식 DRAM(SDRAM), 정적 RAM(SRAM) 등의 RAM과 같은 매체로 구현될 수 있다.
저장 장치(505)는 하드디스크(hard disk), CD-ROM(compact disk read only memory), CD-RW(CD rewritable), DVD-ROM(digital video disk ROM), DVD-RAM, DVD-RW 디스크, 블루레이(blue-ray) 디스크 등의 광학디스크, 플래시메모리, 다양한 형태의 RAM과 같은 영구 또는 휘발성 저장장치로 구현될 수 있다.
또한, I/O 인터페이스(507)는 프로세서(501) 및/또는 메모리(503)가 저장 장치(505)에 접근할 수 있도록 하며, 네트워크 인터페이스(509)는 프로세서(501) 및/또는 메모리(503)가 네트워크(미도시)에 접근할 수 있도록 한다.
이 경우, 프로세서(501)는 정지 영상 입력부(100), 물리적 정보 추출부(200), 의미론적 정보 추출부(300) 및 자동 태깅부(400)의 기능의 적어도 일부 기능을 구현하기 위한 프로그램 명령을 메모리(503)에 로드하여 도 1을 참고로 하여 설명한 동작이 수행되도록 제어할 수 있다.
또한, 메모리(503) 또는 저장장치(505)는 프로세서(501)와 연동하여 정지 영상 입력부(100), 물리적 정보 추출부(200), 의미론적 정보 추출부(300) 및 자동 태깅부(400)의 기능이 수행되도록 할 수 있다.
도 8에 도시한 프로세서(501), 메모리(503), 저장장치(505), I/O 인터페이스(507) 및 네트워크 인터페이스(509)는 하나의 컴퓨터에 구현될 수도 있으며 또는 복수의 컴퓨터에 분산되어 구현될 수도 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (12)

  1. 정지 영상을 입력받는 입력부,
    상기 정지 영상을 해석하여 객체의 시각적인 특징을 포함하는 물리적인 정보를 추론하는 물리적 정보 추출부,
    상기 정지 영상을 해석하여 추상적인 개념 또는 상황을 묘사하는 영상의 속성에 해당하는 의미론적인 정보를 추론하는 의미론적 정보 추출부, 그리고
    상기 정지 영상의 메타 데이터, 상기 물리적인 정보 및 상기 의미론적인 정보를 통합하여 상기 정지 영상에 태깅하는 자동 태깅부
    를 포함하는 자동 태깅 시스템.
  2. 제1항에 있어서,
    상기 물리적 정보 추출부는,
    상기 정지 영상으로부터 배경 전경을 분리하는 배경 분리 모듈, 그리고
    상기 배경 전경이 분리된 분할 영상으로부터 특징을 추출하여 객체를 인식하는 객체 인식 모듈
    을 포함하는 자동 태깅 시스템.
  3. 제2항에 있어서,
    상기 배경 분리 모듈은,
    상기 정지 영상의 픽셀들중 유사한 성격을 가진 픽셀들을 결합하여 슈퍼 픽셀을 생성하고, 상기 슈퍼 픽셀로부터 특징 벡터를 추출하며, 상기 특징 벡터를 이용하여 상기 슈퍼 픽셀이 결합된 상기 배경 전경이 분리된 분할 영상을 생성하는 자동 태깅 시스템.
  4. 제3항에 있어서,
    상기 배경 분리 모듈은,
    색상, 질감, 형태, 위치, 비주얼 워드(visual word)를 포함하는 특징 벡터를 추출하는 자동 태깅 시스템.
  5. 제4항에 있어서,
    상기 객체 인식 모듈은,
    상기 분할 영상에서 객체 분류를 통해 복수의 객체를 인식하는 자동 태깅 시스템.
  6. 제2항에 있어서,
    상기 의미론적 정보 추출부는,
    상기 정지 영상 및 배경 전경 영상에 기 정의된 생성 모델을 적용하여 영상 속성을 추출하는 자동 태깅 시스템.
  7. 자동 태깅 시스템이 정지 영상을 입력받는 단계,
    상기 정지 영상을 해석하여 객체의 시각적인 특징을 포함하는 물리적인 정보를 추론하는 단계,
    상기 정지 영상을 해석하여 추상적인 개념 또는 상황을 묘사하는 영상의 속성에 해당하는 의미론적인 정보를 추론하는 단계, 그리고
    상기 정지 영상의 메타 데이터, 상기 물리적인 정보 및 상기 의미론적인 정보를 통합하여 상기 정지 영상에 태깅하는 단계를 포함하고,
    상기 물리적인 정보를 추론하는 단계 및 상기 의미론적인 정보를 추론하는 단계는 병렬적으로 동시에 수행되는 자동 태깅 방법.
  8. 제7항에 있어서,
    상기 물리적인 정보를 추론하는 단계는,
    상기 정지 영상으로부터 배경 전경을 분리하는 단계, 그리고
    상기 배경 전경이 분리된 분할 영상으로부터 특징을 추출하여 객체를 인식하는 단계
    를 포함하는 자동 태깅 방법.
  9. 제8항에 있어서,
    상기 분리하는 단계는,
    상기 정지 영상의 픽셀들중 유사한 성격을 가진 픽셀들을 결합하여 슈퍼 픽셀을 생성하는 단계,
    상기 슈퍼 픽셀로부터 특징 벡터를 추출하는 단계, 그리고
    상기 특징 벡터를 이용하여 상기 슈퍼 픽셀이 결합된 상기 배경 전경이 분리된 분할 영상을 생성하는 단계
    를 포함하는 자동 태깅 방법.
  10. 제9항에 있어서,
    상기 객체를 인식하는 단계는,
    상기 분할 영상에서 색상, 픽셀 밝기, 기울기, 크기 및 회전에 불변한 특징을 포함하는 객체 인식을 위한 특징을 추출하는 단계, 그리고
    추출된 특징들을 기계적 학습 알고리즘을 통과시켜 객체를 인식하는 단계
    를 포함하는 자동 태깅 방법.
  11. 제10항에 있어서,
    상기 의미론적인 정보를 추론하는 단계는,
    상기 정지 영상 및 상기 정지 영상으로부터 분리된 배경 전경 영상에 기 정의된 생성 모델을 적용하여 영상 속성을 추출하는 자동 태깅 방법.
  12. 제11항에 있어서,
    상기 의미론적인 정보를 추론하는 단계는,
    상기 정지 영상 및 상기 정지 영상의 추상적인 개념 또는 상황을 묘사하는 속성을 훈련하여 영상 속성을 추론하는 자동 태깅 방법.
KR1020130169041A 2013-12-31 2013-12-31 자동 태깅 시스템 및 그 방법 KR102259207B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130169041A KR102259207B1 (ko) 2013-12-31 2013-12-31 자동 태깅 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130169041A KR102259207B1 (ko) 2013-12-31 2013-12-31 자동 태깅 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20150079064A true KR20150079064A (ko) 2015-07-08
KR102259207B1 KR102259207B1 (ko) 2021-05-31

Family

ID=53791491

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130169041A KR102259207B1 (ko) 2013-12-31 2013-12-31 자동 태깅 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102259207B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101657495B1 (ko) * 2015-09-04 2016-09-30 (주)한국플랫폼서비스기술 딥러닝 분석을 위한 모듈화시스템 및 이를 이용한 영상 인식 방법
KR20190088094A (ko) * 2017-12-29 2019-07-26 주식회사 아임클라우드 자동 학습 데이터 생성을 통한 모델 학습 시스템 및 방법
KR20200091711A (ko) * 2019-01-23 2020-07-31 이언주 UBT에 적용할 딥러닝을 사용한 이미지 Auto Tagging 시스템 및 방법
KR20200095254A (ko) * 2019-01-31 2020-08-10 (주)엔에스데블 멀티 라벨 분류를 통한 의료 이미지 태깅 및 분류 시스템 및 방법
KR20210037199A (ko) 2019-09-27 2021-04-06 한국전력공사 자동 분할 태깅 장치 및 이를 이용하여 학습된 손상영역 검출 장치
US11030483B2 (en) 2018-08-07 2021-06-08 International Business Machines Corporation Generating and ordering tags for an image using subgraph of concepts
KR20210122496A (ko) * 2020-04-01 2021-10-12 한국전자통신연구원 벡터를 이용한 장면 묘사 기반의 메타데이터 생성 방법 및 이를 위한 장치
US11263680B2 (en) 2016-07-26 2022-03-01 Dong Suck Oh Knowledge sharing platform

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215963A (ja) * 2010-03-31 2011-10-27 Sony Corp 電子機器、画像処理方法及びプログラム
KR20130032856A (ko) * 2011-09-23 2013-04-02 광주과학기술원 영상 감시 장치 및 영상 감시 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215963A (ja) * 2010-03-31 2011-10-27 Sony Corp 電子機器、画像処理方法及びプログラム
KR20130032856A (ko) * 2011-09-23 2013-04-02 광주과학기술원 영상 감시 장치 및 영상 감시 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101657495B1 (ko) * 2015-09-04 2016-09-30 (주)한국플랫폼서비스기술 딥러닝 분석을 위한 모듈화시스템 및 이를 이용한 영상 인식 방법
WO2017039086A1 (ko) * 2015-09-04 2017-03-09 (주)한국플랫폼서비스기술 웹플러그인 기반 딥러닝 모듈화시스템 및 이를 이용한 영상인식방법
US11263680B2 (en) 2016-07-26 2022-03-01 Dong Suck Oh Knowledge sharing platform
KR20190088094A (ko) * 2017-12-29 2019-07-26 주식회사 아임클라우드 자동 학습 데이터 생성을 통한 모델 학습 시스템 및 방법
US11030483B2 (en) 2018-08-07 2021-06-08 International Business Machines Corporation Generating and ordering tags for an image using subgraph of concepts
KR20200091711A (ko) * 2019-01-23 2020-07-31 이언주 UBT에 적용할 딥러닝을 사용한 이미지 Auto Tagging 시스템 및 방법
KR20200095254A (ko) * 2019-01-31 2020-08-10 (주)엔에스데블 멀티 라벨 분류를 통한 의료 이미지 태깅 및 분류 시스템 및 방법
KR20210037199A (ko) 2019-09-27 2021-04-06 한국전력공사 자동 분할 태깅 장치 및 이를 이용하여 학습된 손상영역 검출 장치
KR20210122496A (ko) * 2020-04-01 2021-10-12 한국전자통신연구원 벡터를 이용한 장면 묘사 기반의 메타데이터 생성 방법 및 이를 위한 장치

Also Published As

Publication number Publication date
KR102259207B1 (ko) 2021-05-31

Similar Documents

Publication Publication Date Title
KR102259207B1 (ko) 자동 태깅 시스템 및 그 방법
Isola et al. Learning visual groups from co-occurrences in space and time
US8712157B2 (en) Image quality assessment
Ordonez et al. Im2text: Describing images using 1 million captioned photographs
Ballan et al. Event detection and recognition for semantic annotation of video
US8873812B2 (en) Image segmentation using hierarchical unsupervised segmentation and hierarchical classifiers
US8660342B2 (en) Method to assess aesthetic quality of photographs
CN109376603A (zh) 一种视频识别方法、装置、计算机设备及存储介质
Ge et al. Co-saliency detection via inter and intra saliency propagation
Chen et al. Modeling fashion
US11574392B2 (en) Automatically merging people and objects from multiple digital images to generate a composite digital image
CN111209897A (zh) 视频处理的方法、装置和存储介质
Daniilidis et al. Computer Vision--ECCV 2010: 11th European Conference on Computer Vision, Heraklion, Crete, Greece, September 5-11, 2010, Proceedings, Part V
Liu et al. Multi-class semantic video segmentation with exemplar-based object reasoning
JP2014093058A (ja) 画像管理装置、画像管理方法、プログラム及び集積回路
CN110765314A (zh) 一种视频语义结构化提取与标注的方法
Zhang et al. A review of co-saliency detection technique: Fundamentals, applications, and challenges
Wang et al. Discovering visual concept structure with sparse and incomplete tags
Dos Santos et al. A visual place recognition procedure with a Markov chain based filter
Phan et al. Lspd: A large-scale pornographic dataset for detection and classification
Mansourian et al. A Salient Based Bag of Visual Word model (SBBoVW): improvements toward difficult object recognition and object location in image retrieval
CN117156078B (zh) 一种视频数据处理方法、装置、电子设备及存储介质
Dale 3D object detection using virtual environment assisted deep network training
CN111782874B (zh) 视频检索方法、装置、电子设备和存储介质
Chaudhuri et al. A deep action-oriented video image classification system for text detection and recognition

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant