KR102040309B1 - 멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법 - Google Patents

멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법 Download PDF

Info

Publication number
KR102040309B1
KR102040309B1 KR1020170119835A KR20170119835A KR102040309B1 KR 102040309 B1 KR102040309 B1 KR 102040309B1 KR 1020170119835 A KR1020170119835 A KR 1020170119835A KR 20170119835 A KR20170119835 A KR 20170119835A KR 102040309 B1 KR102040309 B1 KR 102040309B1
Authority
KR
South Korea
Prior art keywords
information
multimedia content
label information
processor
smell
Prior art date
Application number
KR1020170119835A
Other languages
English (en)
Other versions
KR20190031866A (ko
Inventor
장성준
김상윤
박준석
방준학
이해룡
최종우
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170119835A priority Critical patent/KR102040309B1/ko
Priority to US15/822,393 priority patent/US20190087425A1/en
Publication of KR20190031866A publication Critical patent/KR20190031866A/ko
Application granted granted Critical
Publication of KR102040309B1 publication Critical patent/KR102040309B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06K9/00624
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

미디어 기능을 가지는 미디어 사물(Media Thing)과 서버, 또는 미디어 사물 간의 연결을 이용하여 멀티미디어 콘텐츠 및 멀티미디어 콘텐츠와 연관되는 후각 정보를 공유할 수 있는 후각 정보 인식 장치가 개시된다. 본 발명의 일 실시예에 따른 후각 정보 인식 장치는 영상 또는 소리와 같은 멀티미디어 콘텐츠가 포함하는 제1 객체 및 제1 라벨 정보를 검출하고, 제1 객체가 멀티미디어 콘텐츠 내에서 점유하는 상대적인 위치 정보를 포함하는 제2 라벨 정보를 추출하고, 제1 객체가 냄새와 관련된 냄새 객체인지 여부를 식별한 결과를 제3 라벨 정보로서 생성한다.

Description

멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법 {APPARATUS AND METHOD FOR RECOGNIZATION OF OLFACTORY INFORMATION RELATED TO MULTIMEDIA CONTENTS, APPARATUS AND METHOD FOR GENERATION OF LABEL INFORMATION}
본 발명은 IoT(사물인터넷, Internet of Things)를 기반으로 하는 멀티미디어 콘텐츠를 제공하는 시스템에서 냄새와 관련된 콘텐츠를 표현하기 위한 방법에 관한 것으로, 특히 IoMT(미디어 사물인터넷과 웨어러블, Internet of Media Things and Wearables) 표준과 관련되는 냄새 콘텐츠를 표현하는 기술에 관한 것이다.
무선 통신 기술의 발전으로 사물인터넷(IoT, Internet of Things) 기술이 대두되었으며, 이제 사물들이 지능화된 콤포넌트를 가지고 정보의 수집, 공유, 및 송수신하는 시대가 도래하였다.
이러한 사물인터넷에 멀티미디어 기능을 추가하고, 고정된 사물과 웨어러블 사물 간의 상호작용에 의하여 더욱 풍부한 사용자 경험을 제공하고자 하는 표준으로서 IoMT(미디어 사물인터넷과 웨어러블, Internet of Media Things and Wearables) 표준에 대한 논의가 이루어지고 있다.
IoMT 기술에 의하여 공유될 수 있는 멀티미디어 및 멀티미디어 콘텐츠는 다양한 사용자 경험을 제공할 수 있는데, 그 중 하나가 후각(olfactory sense)에 기반한 사용자 경험의 공유이다.
사물인터넷에 국한하지 않더라도, 종래 기술로서 후각에 기반한 사용자 경험을 공유하는 기술들은 영화를 상영하는 도중 미리 정해진 시간 정보에 동기화되어 미리 정해진 발향 동작(scent emission)에 의하여 사용자에게 후각에 기반한 사용자 경험을 제공하는 기술들이 존재한다.
그러나 종래 기술에서는 공유할 수 있는 후각 경험(olfactory experience)의 카테고리가 제한되어 있으며, 개인들이 손쉽게 후각 경험을 공유할 수 있는 수단을 제공할 수 없다는 문제점이 있다.
또한 후각 정보에 국한하지 않더라도, 멀티미디어 콘텐츠에서 직간접적인 사용자 경험을 추출하는 시도가 있으나, 종래 기술들은, 예를 들어 영상 분석의 경우 지도 학습/비지도 학습 등을 통하여 영상 콘텐츠에서 사용자 경험을 추출하는 과정은 대단히 많은 리소스를 소비하는 문제점이 있다.
본 발명은, IoMT 기술에 의하여 공유되는 멀티미디어가 직접적으로 제공하는 콘텐츠뿐만 아니라, 그 콘텐츠에 의하여 간접적으로 유도되는 사용자 경험을 추출하고 공유할 수 있는 기술을 제공하는 것을 목적으로 한다.
본 발명은, 멀티미디어 콘텐츠에 기반하여 후각과 관련된 객체에 관한 정보를 추출하는 수단을 제공하는 것을 목적으로 한다.
본 발명은, 대규모의 멀티미디어 콘텐츠 데이터에 대하여 효율적으로 사용자 경험과 관련된 객체를 식별하고 식별된 객체에 대하여 보다 고도화된 정보를 얻을 수 있는 수단을 제공하는 것을 목적으로 한다. 이때 본 발명은 적은 리소스를 사용하여 효과적인 기계 학습(machine learning)의 도구로서 지도 학습(supervised learning) 또는 부분적 지도 학습(partially supervised learning)을 위한 데이터셋을 생성하는 방법을 제공하는 것을 목적으로 한다.
본 발명은 멀티미디어 콘텐츠 내의 냄새 객체(odor object)를 추출하기에 적합한 데이터셋을 생성하고 학습에 의하여 모델을 형성하는 방법을 제공하는 것을 목적으로 한다. 데이터셋은 지도 학습 또는 부분적 지도 학습을 위한 기초(base)가 될 수 있는 데이터셋을 의미한다.
본 발명은 멀티미디어 콘텐츠 내의 냄새 객체를 추출하는 데 필요한 장벽을 낮추고, 사용자들이 편리하게 콘텐츠로부터 냄새 객체 및 후각 정보를 추출할 수 있도록 기초가 되는 데이터셋을 제공하는 것을 목적으로 한다.
본 발명은 멀티미디어 콘텐츠 내의 냄새 객체 및 후각 정보를 추출하는 시간과 비용을 저감하여 사용자들이 멀티미디어 콘텐츠를 공유하면서 현장의 공감각까지도 공유할 수 있는 방법을 제공하는 것을 목적으로 한다.
본 발명에서 제안하는 냄새 객체(odor object)는 이미지 데이터 내의 객체로서 특정한 냄새를 연상케 하는 냄새 이미지(odor image)일 수도 있고, 사운드 데이터 내의 객체로서 특정한 냄새를 연상케 하는 냄새 사운드(odor sound)일 수도 있다.
상기와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 후각 정보 인식 장치는 멀티미디어 콘텐츠에 대한 후각 정보를 인식한다. 후각 정보 인식 장치는 프로세서를 포함하고, 상기 프로세서는 멀티미디어 콘텐츠를 수신하고, 상기 멀티미디어 콘텐츠가 포함하는 적어도 하나 이상의 제1 객체 및 상기 적어도 하나 이상의 상기 제1 객체에 대한 제1 라벨 정보(객체의 종류에 대한 basic한 정보를 의미함)를 검출하고, 상기 적어도 하나 이상의 상기 제1 객체의 상기 멀티미디어 콘텐츠 내에서 상대적인 위치 정보를 포함하는 제2 라벨 정보를 추출하고, 상기 검출된 상기 적어도 하나 이상의 상기 제1 객체가 냄새와 관련된 냄새 객체(odor object)인지 여부를 식별한 결과를 제3 라벨 정보로서 생성한다.
이때 상기 프로세서는 상기 적어도 하나 이상의 상기 제1 객체 중 상기 멀티미디어 콘텐츠에 대하여 상기 냄새 객체로 식별된 제2 객체가 상기 멀티미디어 콘텐츠의 지배적인 냄새 객체인지 여부를 판정한 결과를 제4 라벨 정보로서 생성할 수 있다.
이때 상기 프로세서는 상기 적어도 하나 이상의 상기 제1 객체 중 상기 멀티미디어 콘텐츠에 대하여 상기 냄새 객체로 식별된 상기 제2 객체가 상기 멀티미디어 콘텐츠 내에서 점유하는 비율, 및 상기 멀티미디어 콘텐츠 내에서 점유하는 상대적인 위치에 기반하여 상기 멀티미디어 콘텐츠의 상기 지배적인 냄새 객체인 지 여부를 판정할 수 있다.
본 발명의 프로세서는 상기 적어도 하나 이상의 상기 제1 객체에 대한 상기 제1 라벨 정보를 약한 지도 학습 과정(weakly supervised learning process)에 적용하여 상기 멀티미디어 콘텐츠에 대한 기계 학습을 수행하고, 상기 제1 라벨 정보를 상기 약한 지도 학습 과정에 적용한 상기 기계 학습의 결과로서 얻어지는 파라미터에 기반하여 상기 적어도 하나 이상의 상기 제1 객체에 대한 상기 제2 라벨 정보를 추출할 수 있다.
이때 상기 프로세서는 상기 제1 라벨 정보를 상기 약한 지도 학습 과정에 적용한 상기 기계 학습이 수행되는 동안, 컨볼루션 신경 네트워크(CNN)의 컨볼루션 필터의 특징 가중치(feature weight)의 분포에 기반하여 상기 적어도 하나 이상의 상기 제1 객체에 대한 상기 제2 라벨 정보를 추출할 수 있다.
이때 상기 프로세서는 기계 학습의 결과로서 상기 멀티미디어 콘텐츠에 대한 상기 제1 라벨 정보, 상기 제2 라벨 정보, 및 상기 제3 라벨 정보를 포함하는 데이터의 집합체인 모델을 형성할 수 있다.
본 발명의 후각 정보 인식 장치는 멀티미디어 기능을 가지는 미디어 사물(Media Thing)일 수 있다. 또한 후각 정보 인식 장치는 많은 이미지 데이터를 분석하기 위한 컴퓨팅 서버의 형태로 구현될 수도 있다. 후각 정보 인식 장치가 미디어 사물인 경우에는 계산의 부담을 줄이기 위하여 클라우드 컴퓨팅의 형태로 계산 과정의 일부가 분담되어 실행되고, 나머지 일부가 미디어 사물 내의 프로세서에 의하여 실행될 수도 있다.
본 발명의 일 실시예에 따른 라벨 정보 생성 장치는 멀티미디어 콘텐츠에 기반한 라벨 정보를 생성한다. 라벨 정보 생성 장치는 프로세서를 포함하고, 프로세서는 상기 멀티미디어 콘텐츠를 수신하고, 상기 멀티미디어 콘텐츠가 포함하는 적어도 하나 이상의 제1 객체 및 상기 적어도 하나 이상의 상기 제1 객체에 대한 제1 라벨 정보(객체의 종류에 대한 basic한 정보를 의미함)를 검출하고, 상기 적어도 하나 이상의 상기 제1 객체에 대한 상기 제1 라벨 정보를 약한 지도 학습 과정(weakly supervised learning process)에 적용하여 상기 멀티미디어 콘텐츠에 대한 기계 학습을 수행하고, 상기 제1 라벨 정보를 상기 약한 지도 학습 과정에 적용한 상기 기계 학습의 결과로서 얻어지는 파라미터에 기반하여 상기 적어도 하나 이상의 상기 제1 객체에 대한 상기 제2 라벨 정보를 추출한다.
이때 상기 프로세서는 상기 제1 라벨 정보를 상기 약한 지도 학습 과정에 적용한 상기 기계 학습이 수행되는 동안, 컨볼루션 신경 네트워크(CNN)의 컨볼루션 필터의 특징 가중치(feature weight)의 분포에 기반하여 상기 적어도 하나 이상의 상기 제1 객체에 대한 상기 제2 라벨 정보를 추출할 수 있다.
이때 상기 프로세서는 상기 기계 학습의 결과로서 상기 멀티미디어 콘텐츠에 대한 상기 제1 라벨 정보, 및 상기 제2 라벨 정보를 포함하는 데이터의 집합체인 모델을 형성할 수 있다.
이때 상기 프로세서는 상기 모델을 이용하여 라벨이 부여되지 않은(unlabeled) 제2 멀티미디어 콘텐츠에 대한 분석을 실행하고, 상기 제2 멀티미디어 콘텐츠에 대한 분석의 결과로서 상기 제2 멀티미디어 콘텐츠가 포함하는 제2 객체에 대한 제1 라벨 정보 및 제2 라벨 정보를 검출할 수 있다.
본 발명의 일 실시예에 따른 후각 정보 인식 방법은 프로세서를 포함하는 사물 디바이스에 의하여 실행되는, 멀티미디어 콘텐츠에 기반한 후각 정보를 인식한다. 이때 후각 정보 인식 방법은 상기 프로세서에 의하여, 멀티미디어 콘텐츠를 수신하는 단계; 상기 프로세서에 의하여, 상기 멀티미디어 콘텐츠가 포함하는 적어도 하나 이상의 제1 객체 및 상기 적어도 하나 이상의 상기 제1 객체에 대한 제1 라벨 정보를 검출하는 단계; 상기 프로세서에 의하여, 상기 적어도 하나 이상의 상기 제1 객체의 상기 멀티미디어 콘텐츠 내에서 상대적인 위치 정보를 포함하는 제2 라벨 정보를 추출하는 단계; 및 상기 프로세서에 의하여, 상기 검출된 상기 적어도 하나 이상의 상기 제1 객체가 냄새와 관련된 냄새 객체(odor object)인지 여부를 식별한 결과를 제3 라벨 정보로서 생성하는 단계를 포함한다.
본 발명의 일 실시예에 따른 라벨 정보 생성 방법은 프로세서를 포함하는 사물 디바이스에 의하여 실행되는, 멀티미디어 콘텐츠에 기반한 라벨 정보를 생성한다. 이때 라벨 정보 생성 방법은 상기 프로세서에 의하여, 멀티미디어 콘텐츠를 수신하는 단계; 상기 프로세서에 의하여, 상기 멀티미디어 콘텐츠가 포함하는 적어도 하나 이상의 제1 객체 및 상기 적어도 하나 이상의 상기 제1 객체에 대한 제1 라벨 정보를 검출하는 단계; 상기 프로세서에 의하여, 상기 적어도 하나 이상의 상기 제1 객체에 대한 상기 제1 라벨 정보를 약한 지도 학습 과정(weakly supervised learning process)에 적용하여 상기 멀티미디어 콘텐츠에 대한 기계 학습을 수행하는 단계; 및 상기 프로세서에 의하여, 상기 제1 라벨 정보를 상기 약한 지도 학습 과정에 적용한 상기 기계 학습의 결과로서 얻어지는 파라미터에 기반하여 상기 적어도 하나 이상의 상기 제1 객체에 대한 상기 제2 라벨 정보를 추출하는 단계를 포함한다.
본 발명의 후각 정보 인식 장치는 영상과 같은 멀티미디어 콘텐츠의 검색 및 분석을 통하여 멀티미디어 콘텐츠 내에서 후각과 연관되는 객체(object), 후각에 영향을 줄 수 있는 객체를 추출할 수 있다. 이때 추출되는 객체는 '냄새 이미지(Odor image)'이거나 '냄새 사운드(Odor sound)'일 수 있다. 냄새 이미지는 특정한 냄새를 연상하게 하는 추상화된 이미지와 연관되는 객체를 의미한다. 냄새 사운드는 특정한 냄새를 연상하게 하는 추상화된 사운드와 연관되는 객체를 의미한다. 냄새 객체(Odor object)는 시각이나 청각에만 한정되지 않고 인간의 오감에 대응하는 추상화된 감각과 연관되는 객체를 모두 의미할 수 있다.
본 발명에 따르면, IoMT 기술에 의하여 공유되는 멀티미디어가 직접적으로 제공하는 콘텐츠뿐만 아니라, 그 콘텐츠에 의하여 간접적으로 유도되는 사용자 경험을 추출하고 공유할 수 있다. 본 발명에 따르면 멀티미디어 콘텐츠에 기반하여 후각과 관련된 객체에 관한 정보를 추출할 수 있다.
본 발명에 따르면 대규모의 멀티미디어 콘텐츠 데이터에 대하여 효율적으로 사용자 경험과 관련된 객체를 식별하고 식별된 객체에 대하여 보다 고도화된 정보를 얻을 수 있다. 본 발명에 따르면 적은 리소스를 사용하여 효과적인 기계 학습(machine learning)의 도구로서 지도 학습(supervised learning) 또는 부분적 지도 학습(partially supervised learning)을 위한 데이터셋을 생성할 수 있다.
본 발명에 따르면 멀티미디어 콘텐츠 내의 냄새 객체(odor object)를 추출하기에 적합한 데이터셋을 생성할 수 있다. 또한 기계 학습(machine learning)에 의하여 콘텐츠 내의 객체에 대한 정보의 집합체인 모델을 형성할 수 있다.
본 발명에 따르면 멀티미디어 콘텐츠 내의 냄새 객체를 추출하는 데 필요한 장벽을 낮추고, 사용자들이 편리하게 콘텐츠로부터 냄새 객체 및 후각 정보를 추출할 수 있도록 기초가 되는 데이터셋을 제공할 수 있다.
본 발명에 따르면 멀티미디어 콘텐츠 내의 냄새 객체 및 후각 정보를 추출하는 시간과 비용을 저감하여 사용자들이 멀티미디어 콘텐츠를 공유하면서 현장의 공감각까지도 공유할 수 있다.
본 발명에서 제안하는 냄새 객체(odor object)는 이미지 데이터 내의 객체로서 특정한 냄새를 연상케 하는 냄새 이미지(odor image)일 수도 있고, 사운드 데이터 내의 객체로서 특정한 냄새를 연상케 하는 냄새 사운드(odor sound)일 수도 있다.
도 1은 종래 기술인 반 지도 학습(SSL, Semi-Supervised Learning)의 개념을 도시하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 멀티미디어 콘텐츠에 기반한 라벨 정보를 생성하는 과정을 도시하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 멀티미디어 콘텐츠에 기반한 후각 정보를 인식하는 과정을 도시하는 도면이다.
도 4 내지 도 6은 본 발명의 일 실시예에 따른 멀티미디어 콘텐츠에 기반한 라벨 정보를 생성하는 과정을 도시하는 도면이다.
도 7은 본 발명의 일 실시예에 따른 사물 인터넷 환경에서 멀티미디어 콘텐츠에 기반한 후각 정보를 인식하는 과정을 도시하는 도면이다.
도 8은 본 발명의 일 실시예에 따른 후각 정보 인식 방법을 도시하는 동작 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 후각 정보 인식 방법을 도시하는 동작 흐름도이다.
도 10은 본 발명의 일 실시예에 따른 라벨 정보 생성 방법을 도시하는 동작 흐름도이다.
도 11은 본 발명의 일 실시예에 따른 라벨 정보 생성 방법을 도시하는 동작 흐름도이다.
상기 목적 외에 본 발명의 다른 목적 및 특징들은 첨부 도면을 참조한 실시 예에 대한 설명을 통하여 명백히 드러나게 될 것이다.
본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한 설명의 편의를 위하여 도면에 도시된 실시예들은 일부가 과장된 채로 도시되었을 수 있다.
그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
본 발명의 구성의 일부로서 포함되는 디바이스는 사물인터넷을 구성할 수 있다. 사물인터넷을 구성하는 디바이스가 멀티미디어 기능을 가지는 경우에 미디어 사물(MThing, Media Thing)이라 할 수 있고, 이러한 미디어 사물들의 네트워크를 통하여 다양한 사용자 경험을 주고받을 수 있도록 하는 것이 본 발명의 주된 이슈이다.
본 발명에서 제시되는 디바이스는 영상, 음향 등을 수집할 수 있는 카메라, 레코더(recorder), 비디오 카메라, 등을 포함할 수 있으며, 후각 정보를 수집할 수 있는 전자 코(E-nose, electronic nose)와 연동하여 후각 정보를 공유할 수 있다. 또한 본 발명에서 제시되는 디바이스는 발향 디바이스(scent emitting device)와 연동할 수 있으며, 발향 디바이스는 향기 콤포넌트(scent component)를 보유하고, 향기 콤포넌트의 일부 또는 전부를 조합하여 후각 정보를 실제로 구현할 수 있다.
본 명세서에서 언급하는 발향 디바이스의 한 종류로서 향기 디스플레이(Scent Display) 또는 후각 디스플레이(Olfactory Display)를 들 수 있다. 향기 디스플레이 또는 후각 디스플레이는 예를 들어 퍼스널 컴퓨터, 랩탑, 모바일 단말기, 텔레비전 또는 헤드 마운트 디스플레이(HMD, Head Mounted Display) 등의 시청각 디스플레이와 연동하여 영상 또는 소리를 포함하는 멀티미디어 콘텐츠에 향기를 부가하여 사용자에게 제공한다. 향기 디스플레이 또는 후각 디스플레이는 향기 콤포넌트(Scent Component)를 보유하는 향기 카트리지(Scent Cartridge)를 포함하고, 향기 카트리지가 향기 콤포넌트 또는 향기 콤포넌트의 조합을 배출하여 향기 분위기를 실현하도록 향기 카트리지를 제어하는 컨트롤러 또는 프로세서를 더 포함할 수 있다.
도 1은 종래 기술인 반 지도 학습(SSL, Semi-Supervised Learning)의 개념을 도시하는 도면이다. 도 1은 본 발명의 구성의 일부로서 차용될 수 있다.
도 1을 참조하면, 임의의 N개로 이루어진 라벨 이미지(Labeled images)의 집합을 이용하여 기계 학습(machine learning)이 수행된다. 각 이미지의 label은 그 이미지의 특성을 설명하는 정보이다. 학습의 결과 각 이미지와 각 라벨 간의 연관성에 대한 종합적인 분석 결과로서 데이터셋이 생성된다. 여기까지의 과정은 지도 학습(supervised learning)으로 이루어진다.
이후, 언라벨 이미지(Unlabeled image)에 대하여 라벨을 생성하기 위하여 언라벨 이미지와 라벨 이미지들 간의 유사성 분석(similarity analysis)이 이루어진다. 이때 소정의 기준에 의하여 언라벨 이미지와의 유사도가 가장 높거나, 또는 일정 기준 이상의 유사도를 가지는 라벨 이미지 k가 선택될 수 있다. 언라벨 이미지와 라벨 이미지 k가 유사하므로, 라벨 이미지 k의 라벨 k를 언라벨 이미지의 라벨 정보로 선택할 수 있다.
이처럼 종래 기술인 반 지도 학습은 라벨 이미지에 대한 학습을 이용하여 언라벨 이미지에 대한 분석/학습을 수행한다. 반 지도 학습은 라벨 이미지와 언라벨 이미지에 대한 학습 결과를 새로운 언라벨 이미지에 적용하여 언라벨 이미지의 라벨 정보를 추가해 나아갈 수 있다. 이 같은 과정을 labeling propagation이라 부르기도 한다.
도 2는 본 발명의 일 실시예에 따른 멀티미디어 콘텐츠에 기반한 라벨 정보를 생성하는 과정을 도시하는 도면이다. 도 2의 과정은 컴퓨팅 시스템의 프로세서에 의하여 실행될 수 있다. 도 2의 과정은 서버의 프로세서에 의하여 실행될 수도 있고, 모바일 단말기의 응용 프로세서에 의하여 실행될 수도 있으며, 디바이스의 프로세서가 클라우드 컴퓨팅의 지원을 받아 실행할 수도 있다.
도 2를 참조하면, 라벨 이미지들(200)에 대한 기계 학습(212)을 통하여 라벨 이미지들(200)이 가지고 있는 제1 라벨들(201) 이외에 라벨 이미지들(200)에 내재되어 있는 추가적인 정보가 제2 라벨들(202)로서 생성될 수 있다. 이때 제1 라벨들(201)은 라벨 이미지들(200)에 포함되는 객체들의 종류, 또는 이름에 대한 기초적인(basic) 정보를 의미한다.
예를 들어, 특정한 사진이 자동차를 포함하는 경우에, 그 사진에 '자동차'라는 라벨이 부여될 수 있다. 한편 자동차의 종류를 의미하는 '승용차', '트럭', 'SUV'와 같은 설명이 라벨로 부여될 수도 있다. 이때 제1 라벨들(201)은 이미지 내에 어떤 객체가 포함되는 지에 대한 정보만을 나타낼 뿐이고, 그 이미지 내의 객체의 상대적인 위치, 객체의 크기 등에 대한 정보는 포함하지 않는 경우를 의미한다.
또한 특정한 이미지는 하나의 객체만을 나타내는 것이 아닐 수 있다. 예를 들어 이미지 내에 자동차와 사람이 모두 나타나 있고, 그 이미지에 대한 라벨에는 '자동차'와 '사람'이 모두 표현되어 있을 수 있다. 이 경우에도 이미지의 어느 쪽 객체가 자동차이고 어느 쪽 객체가 사람인지에 대한 정보는 나타나 있지 않은 경우를 가정한다.
본 명세서에서는 특정한 이미지가 가지는 제1 라벨들(201) 각각이 가리키는 객체를 편의상 제1 객체들이라 표현하기로 한다.
본 발명의 약한 지도 학습(212)(weakly supervised learning)을 거치면, 라벨 이미지들(200)이 포함하는 제1 객체들에 대한 제1 라벨들(201) 외에, 제1 객체들에 대한 추가적인 정보가 제2 라벨들(202)로서 생성될 수 있다. 이때 제2 라벨들(202)에 포함되는 정보는 제1 객체들이 이미지 내에서 점유하는 크기, 크기의 비율, 제1 객체들의 이미지 내에서 상대적인 위치 등이 포함될 수 있다.
본 발명의 약한 지도 학습의 결과로서 라벨 이미지들(200)이 포함하는 제1 객체들에 대한 제1 라벨들(201) 및 제2 라벨들(202)이 포함되는 추상화된 데이터셋으로서 모델(210)이 생성될 수 있다.
모델(210)은 학습의 과정에서 도출되는 가중치(weight), 정보 간의 링크를 포함하는 데이터의 집합체이다. 예를 들어 학습의 과정에서 컨볼루션 신경 네트워크(CNN, Convolution Neural Network)가 사용된다면, CNN 구조에 따라 생성된 가중치들이 행렬(matrix)의 집합체로 표현될 수 있다. 학습 시 가중치 값을 거쳐 도출된 추론 결과와 정답(제1 라벨들(201))을 비교하여 원하는 결과가 추정되도록 적합한 가중치 값으로 수정될 수 있다.
가중치값들의 크기는 CNN 구조에 비례하며 학습 시 가중치값들이 수정되므로 학습이 완료된 후 label의 추론에 사용되는 가중치 값들이 모델(210) 내의 의미있는(significant) 정보로서 존재한다. 모델(210)은 학습이 완료된 이후 데이터베이스에 저장되어 유지되고, 언라벨 이미지에 대한 추론이 필요한 경우에 호출되어 언라벨 이미지에 대한 추론의 도구로서 사용될 수 있다.
도 3은 본 발명의 일 실시예에 따른 멀티미디어 콘텐츠에 기반한 후각 정보를 인식하는 과정을 도시하는 도면이다.
도 3을 참조하면, 라벨 이미지들(300)이 적어도 하나 이상의 제1 객체를 포함하고, 제1 객체에 대한 제1 라벨들(301)을 포함하는 것은 도 2에서와 같으므로 중복된 부분의 설명은 생략한다.
라벨 이미지들(300)이 포함하는 제1 객체들에 대해서, 제1 객체들이 후각(olfactory sense)과 연관 있는, 냄새 객체들(Odor object)인지 여부가 식별될 수 있다(314). 예를 들어 이미지에 포함된 객체가 '자동차'인 경우 휘발유 냄새, 매연 냄새 등이 연상되므로 '자동차'는 냄새 객체로 분류될 수 있다. 한편, '꽃'은 꽃 향기를 연상케 하므로 냄새 객체로 분류될 수 있으며 '케이크'와 같은 음식도 그 특유의 냄새를 연상케 하므로 역시 냄새 객체로 분류될 수 있다. 배경으로서 '사막', '숲', '호수', '바다' 등도 특유의 분위기와 냄새를 연상케 하므로 냄새 객체로 분류될 수 있다. 다만 냄새 객체로 분류된다 하더라도 냄새를 연상케 하는 정도가 강한 객체와 약한 객체는 구분될 수 있을 것이다.
반면 '사람'의 경우에는 그 라벨만으로 특정한 냄새를 인지하기는 어려우므로 냄새 객체로 포함하기는 어렵다. 이와 같이 특정한 객체가 냄새 객체인지 구분하는 과정은 객체와 냄새 간의 연관성을 정의하는 레퍼런스 데이터베이스와의 비교 분석을 통하여 실행될 수 있다.
냄새 객체들을 식별하는 과정(314)을 거치면 제1 라벨들(301) 각각이 나타내는 제1 객체들이 냄새 객체인지 여부에 대한 정보가 제3 라벨들(303)로서 생성될 수 있다. 이후의 학습 과정(312)은 제3 라벨들(303)을 참조하여 냄새 객체들로 식별된 객체들과 이미지에 대해서만 이루어질 수도 있다.
약한 지도 학습 과정(312)은 도 2에서 설명한 바와 같다. 약한 지도 학습 과정(312)을 거치면 라벨 이미지들(300)은 제1 라벨들(301), 상대적 위치 정보 및 크기에 대한 부가 정보를 포함하는 제2 라벨들(302), 및 냄새 객체인지 여부에 대한 정보를 포함하는 제3 라벨들(303)과 연관될 수 있다. 라벨 이미지들(300)과 제1 라벨들(301), 제2 라벨들(302), 및 제3 라벨들(303)이 포함되고, 라벨 이미지들(300)과 제1 라벨들(301), 제2 라벨들(302), 및 제3 라벨들(303) 간의 연관성에 대한 정보까지 포함된 추상화된 데이터셋이 모델(310)로서 생성된다.
도 4는 본 발명의 일 실시예에 따른 멀티미디어 콘텐츠에 기반한 라벨 정보를 생성하는 과정을 도시하는 도면이다.
도 4를 참조하면 라벨 이미지들(400)과 라벨 이미지들(400)에 연관된 제1 라벨들(401)을 이용하여 약한 지도 학습(412)을 거쳐 라벨 이미지들(400)에 포함되는 제1 객체들에 대한 제2 라벨들(402)이 생성된다. 약한 지도 학습(412)을 거쳐 생성된 라벨 정보의 집합체로서 모델(410)이 형성되는 점은 앞에서 도 2 및 도 3을 통하여 설명한 바와 같다.
도 4를 참조하면 언라벨 이미지들(430)에 대하여 모델(410)을 이용한 검출(420) 과정이 실행된다. 모델(410)은 이미지 내의 객체들의 종류뿐만 아니라 위치와 크기 정보까지 포함하고 있으므로 모델(410)을 이용한 검출 결과 언라벨 이미지들(430)에 포함된 제2 객체들에 대해서는 제2 객체들의 종류에 관한 제1 라벨들(431)뿐만 아니라 제2 객체들이 언라벨 이미지들(430) 내에서 점유하는 크기, 상대적인 위치 정보가 포함되는 제2 라벨들(432)이 도출된다.
앞서 도 1에서 도시된 것처럼 라벨 이미지들에 대하여 학습한 결과를 언라벨 이미지들에 적용하여 언라벨 이미지들이 포함하는 객체들에 대한 정보를 도출해 내는 과정은 이미 공지의 기술이나, 이 같은 종래 기술에서는 라벨 이미지에 포함되는 객체의 종류에 대한 정보만으로는 비교해야 할 객체를 이미지 내에서 특정하기가 쉽지 않았다. 즉, 이미지 내에 꽃과 동물(예를 들어 개)이 동시에 포함되는 경우, 인간은 그간의 경험에 비추어 이미지 내에서 꽃과 개를 쉽게 구별해 내지만 인공지능은 이미지 내의 객체들 중 어느 것이 꽃이고 어느 것이 동물인지를 처음부터 구분해 낼 수는 없다.
이런 이유로 종래 기술에서는 라벨 이미지에 대한 부가적인 라벨링 작업이 수작업으로 추가되는 등의 문제점이 있었다. 즉, 라벨 이미지에 대하여 어느 쪽 객체가 꽃이고 어느 쪽 객체가 개인지 별도의 표시를 수작업으로 진행한 후에 이를 지도 학습의 레퍼런스로 활용할 수 있었다. 즉, 이때에는 이미지 내의 객체의 위치에 대한 '정답'이 필요한데, 이러한 '정답'을 이미지 내에 추가적으로 표시하거나 부가 정보를 부여하는 과정이 필요하였다.
일반적으로 얻어지는 라벨 이미지는 이미지 내의 객체에 대한 위치 정보를 포함하지는 않고, 객체의 종류에 대한 정보만을 포함하는 경우가 대부분이다. 이는 이미지에 대한 라벨은 기계 학습을 전제로 하여 생성되는 것이 아니고 라벨 작성자 이외의 사람이 활용할 것을 가정하여 작성되는 경우가 대부분이기 때문이다. 따라서 종래 기술의 지도 학습/반 지도 학습을 적용하기 위해서는 일반적으로 얻어지는 라벨 이미지를 재가공하는 과정이 반드시 필요했다. 종래 기술에서 필요로 하는 재가공 작업은, 예를 들어, 이미지 내의 객체에 대한 박스(box) 표시와 같은 별도의 표시를 의미할 수 있다. 종래 기술에서는 이미지 내의 정확한 객체 인식을 위하여 라벨에 포함된 객체에 대해서는 별도의 박스 표시를 부여하여 다른 영역과 구분할 수 있도록 재가공하는 작업이 필요하였다.
이처럼 이미지 내의 객체에 대한 추가적인 박싱 작업을 일일이 수작업으로 진행하는 경우 데이터가 증가할수록 작업의 부담이 증가한다. 이러한 이유로, 종래 기술을 위한 재가공 작업은 지도 학습을 위한 위한 데이터의 수를 늘리는 데에 제약으로 작용하였다
한편 기계 학습의 활용도에 따라서도 최종적으로 얻어야 할 목표 결과물이 상이할 수 있는데, 예를 들어 이미지 내의 객체의 위치를 정확히 인식해야 하는 경우에는 라벨 정보에 이미지 내의 객체와, 객체의 위치가 정확히 표시될 필요가 있다. 그러나 본 발명에서와 같이, 이미지 내의 객체의 대략적인 위치와 객체 간의 상대적인 위치 비교, 객체 간의 상대적인 크기 비교만이 필요한 경우라면 라벨 정보는 객체의 위치에 대한 '정답'을 가질 필요는 없다.
따라서 본 발명은 이미지 내의 객체의 절대적인 크기, 절대적인 위치를 정확히 인식해야 하는 경우가 아니고 이미지 내의 객체 중 지배적인 객체의 인식, 객체 간의 상대적인 위치 및 상대적인 크기를 비교하기 위한 경우를 가정한 것으로서, 객체의 위치에 대한 '정답'을 필요로 하지 않는 지도 학습 과정을 제안한다.
본 발명은 일반적으로 얻어질 수 있는 라벨 이미지, 즉, 이미지 내의 객체의 종류에 대한 간단한 정보만을 가지고 있는 데이터를 이용하여 충분히 정밀도 높은 학습 모델을 생성할 수 있다. 따라서 라벨 이미지에 대한 별도의 가공 없이도 대단히 많은 샘플 데이터를 이용하여 지도 학습을 수행할 수 있는 장점이 있다.
본 발명은 라벨 이미지에 대한 학습 과정에서 도출된 모델을 이용하여 언라벨 이미지들에 대해서도 이미지 내의 객체들의 상대적인 위치, 상대적인 크기 정보를 추론할 수 있다. 이와 같은 과정을 통하여 언라벨 이미지에 대한 라벨을 추가함으로써 학습을 위한 모집단을 점차 증가시킬 수 있다.
도 5 내지 도 6은 본 발명의 일 실시예에 따른 멀티미디어 콘텐츠에 기반한 라벨 정보를 생성하는 과정을 도시하는 도면이다.
도 5를 참조하면, 본 발명이 제안하는 약한 지도 학습(Weakly Supervised Learning) 기법의 개념이 소개된다. 물체의 좌표 위치에 대한 box label 없이, 물체의 종류에 대한 label만 가지고 Deep Convolution Neural Network를 이용하여 학습함으로써 부가 정보를 얻을 수 있다.
학습된 CNN의 feature를 이용하여 Convolution filter의 feature weight가 높은 수치를 보이는 부분을 이미지에 mapping하여 CNN이 이미지의 어느 위치에 집중하고 있는 지를 알아내어 그 집중된 부분을 물체의 위치로 추정할 수 있다.
도 5에서 convolution filter를 거쳐 도출된 feature weight를 이용하여 이미지의 개와 자전거의 위치가 각 필터 별로 붉은 색으로 강조되어 도시된다. 즉, 복수 개의 객체에 대해서도 각각의 필터가 적용되어, 각각의 객체의 위치를 식별해 낼 수 있다. 이러한 위치의 식별은 아주 정확한 결과를 얻어내는 것은 아니나, 최소한 이미지의 어느 쪽 객체가 개이고 어느 쪽 객체가 자전거인 지를 구별하는 정도의 결과를 얻을 수 있다.
이미지 내에서 객체의 위치를 인식하는 응용에 따라서는 매우 정확한 위치를 찾아내어 box로 표현할 수 있는지가 학습 과정의 완성도에 대한 평가의 기준이 되기도 한다. 그러나 본 발명은 이미지 내의 객체의 위치를 인식하는 것에서 종료되는 것이 아니라, 그 객체를 활용하는 것이 주된 목적이므로 정확한 위치를 box로 표현할 필요는 없다. 본 발명이 가정하고 있는 응용 중 하나는 이미지 내의 냄새 객체 및 지배적인 냄새 객체의 식별이므로, 최종적으로 얻어야 할 결과는 이미지 내에 존재하는 냄새 객체를 인식하고 어떤 향기(scent)를 발향할 것인지에 대한 정보이다. 이런 응용을 염두에 두고 있다면 이미지 내의 객체의 위치를 박스로 정확하게 표현하기 위한 수작업은 불필요하며, 보다 신속하고 간단한 방법으로 이미지 내의 객체의 상대적인 위치 및 상대적인 크기를 추론해 내는 과정이 더욱 효과적이다.
본 발명의 목표는 첫째, 이미지에 어떤 냄새 객체들이 있고(Multi-odor-object classification), 둘째, 냄새 객체가 대략적으로 어느 위치에 존재하는지 인식하는(Multi-odor-object localization) 과정이다. 이 같은 인식을 거쳐 냄새 객체의 크기나 이미지 중심에서부터의 거리, 냄새 객체 간의 거리 등을 고려하여 우선 순위를 정하여 발향기에서 어떤 향을 지배적인(dominant) 향으로 발향할 지를 정하는 것이 세번째 목표이다.
이러한 본 발명의 목표를 달성하기 위해 종래 기술에서는 가장 좋은 방법은 모든 데이터에 대해 객체의 box를 포함하는 label을 만들어서 학습시키는 방법이 최적의 방법이 될 수 있지만, 냄새는 하나의 객체에서만 나오는 것이 아니기 때문에 하나의 냄새 label을 만들기 위해 다양한 객체가 필요하고 각 객체 별로 box label이 필요하다. 따라서 데이터 제작에 상당한 시간과 비용이 소요된다. 따라서 이를 극복하기 위해서는 본 발명에서 제안한 바와 같이 객체의 box label이 필요 없는 Weakly Supervised Learning이 상당한 이점을 가진다.
냄새의 경우에는 하나의 분류 결과에 다양한 학습 데이터가 필요한 경우가 많다. 예를 들어 커피 향의 경우에는 커피 원두, 머그잔에 담긴 커피, 종이컵/플라스틱 컵에 담긴 커피, 캔 커피 등 다양한 상황이 존재하므로 이들 다양한 상황으로부터 하나의 카테고리로 분류되는 냄새를 도출할 수 있는 데이터셋 구축은 사람의 수작업으로도 쉽게 달성할 수 있는 것이 아니다.
도 6을 참조하면, 후각 이미지 데이터셋에 CNN을 적용하여 Multi-scale Feature maps를 도출하고, 이미지에 대하여 후보 box를 생성한 후 가장 점수가 높은 box를 선택하는 과정이 소개된다.
Weakly supervised learning이라는 개념은 본 발명에서 최초로 제안한 것은 아니며, 본 발명에서 제안한 weakly supervised learning은 종래의 weakly supervised learning과는 아래와 같은 차이점을 가진다.
일반적인 이미지 내의 객체 인식을 위한 weakly supervised learning으로 object detection을 하는 경우 Class Activation Mapping이란 방법이 이용된다. 이 경우에 적용되는 feature는 CNN의 가장 마지막 layer만 이용되는 경우도 있다.
마지막 layer만 이용되는 경우 다양한 scale(객체 크기 규모)에 대응하지 못하는 문제가 발생할 수 있으며, 이를 해결하기 위해 이미지 리사이징이나 segmentation 등을 통해 해결하려는 시도가 있으나 처리과정에 시간이 오래 소모되는 단점이 있었다.
처리 과정에 장시간이 소요된다면 이미지를 인식 후 실시간 발향 해야 하는 후각 이미지 인식의 특성 상 적합하지 않으며, 이미지 인식을 기반으로 향후 영상에서 후각 발향 부분을 인식해 접목할 수 있는 다양한 응용에서 걸림돌로 작용할 수 있다.
이런 문제점을 해결하기 위해 본 발명에서는 빠른 속도와 높은 정확도로 알려진 Single Shot MultiBox Detector의 방법을 차용하여 weakly supervised learning 기법에 적용하였다. 즉, 별도의 이미지 전처리 가공 없이 Class Activation Mapping을 생성할 때 마지막 layer만 사용하는 것이 아니라, 모든 CNN layer의 feature를 사용해서 Multi-scale feature map을 생성해 종래 기술의 Weakly Supervised object detection과는 다른 방식으로 scale 문제를 해결한다.
도 6을 참조하면 각각의 Convolution layer는 서로 다른 scale의 filter를 가지고 있다. 입력된 이미지에서 작은 물체 인식 등 물체의 scale로 인해 인식 되지 않는 것을 방지 하기 위해 모든 Convolution layer의 filter를 feature로 사용한다. 모든 Convolution layer의 filter를 feature로 이용함으로써 Multi-scale feature map을 생성할 수 있으며 이미지 내에서 서로 다른 크기를 가지는 객체라 하더라도 인지하여 냄새 객체로서 활용 가능한 지를 판단할 수 있다.
종래 기술을 적용했을 때 이미지 내의 냄새 객체를 식별하기가 어려움을 설명하기 위하여 다음과 같은 예시를 들 수 있다. 다수의 사람이 참석한 야외에서의 바비큐 파티와 같은 상황을 예로 들면, 이미지 내의 중앙부에는 한 명 또는 그 이상의 사람이 위치할 수 있다. 이미지 내의 주변부에 바비큐 이미지가 위치할 수 있다. 이 경우 사람의 이미지는 중앙부에 있어, 이미지 내의 객체로서는 지배적인 위치라고 할 수 있으나, 앞서 설명한 것처럼 사람은 냄새 객체로서 부적합하고 이미지 내의 객체 중에서는 바비큐 이미지가 전체적인 상황의 지배적인 냄새로서 적합할 수 있다. 이 경우 종래의 기술에서는 중앙부의 사람만을 객체로 인식할 가능성이 높으나, 냄새 객체로서는 이 같은 종래 기술의 적용 결과는 활용하기 적합하지 않다.
인공지능은 상황에 대한 사전 정보를 가지고 있지 않으므로, 이미지 내의 객체 중 어떤 객체가 지배적인 냄새 객체가 될 지 판단하기 어렵다. 따라서 본 발명에서는 이미지 내의 객체 중 작은 객체라도 식별해 두고 이들 중 냄새 객체로 인정되는 것들을 구분하여 냄새 객체들 중 지배적인 냄새 객체를 인지할 수 있도록 개선된 weakly supervised learning 기법을 제안한다.
도 7은 본 발명의 일 실시예에 따른 사물 인터넷 환경에서 멀티미디어 콘텐츠에 기반한 후각 정보를 인식하는 과정을 도시하는 도면이다.
서버(710)는 냄새 객체 검출기(Odor object detector)(711)를 포함할 수 있다. 이때 냄새 객체 검출기(711)는 서버(710) 내의 별도의 프로세서로 구현된 하드웨어 모듈일 수도 있고, 소프트웨어에 의하여 구체화된 소프트웨어 모듈로서 서버(710)에서 실행되는 모듈일 수도 있다. 냄새 객체로 분류된 객체들에 대한 정보는 데이터베이스(720)에 의하여 저장되고 업데이트될 수 있다.
서버(710) 내의 냄새 객체 검출기(711)는 이미지 내의 냄새 객체를 인식할 수 있다.
포터블 디바이스(730)는 카메라 이미지 업로더(731)와 향기 디바이스 핸들러(732)를 포함할 수 있다. 향기 디바이스(740)는 향기 콤포넌츠(741)와 블렌딩 및 컨트롤러(742)를 포함할 수 있다.
카메라 이미지 업로더(731)는 카메라의 정지영상 또는 동영상을 캡쳐하여 서버(710)로 전송할 수 있다. 향기 디바이스 핸들러(732)는 서버(710)로부터 수신한 냄새 이미지 인식 결과에 대응하는 향을 발하기 위하여 향기 디바이스(740)를 제어할 수 있다. 서버(710) 내의 냄새 객체 검출기(711)는 카메라 이미지 업로더(731)로부터 업로드된 정지영상 또는 동영상을 분석하여 냄새 객체를 인식할 수 있다.
이때 냄새 객체 검출기(711)는 이미지 내의 객체가 후각과 관련된 객체인 지 여부를 데이터베이스(720)와 연동하여 분석한다. 냄새 객체인지 여부는 데이터베이스(720)에서 분류하는 기준에 따라 결정될 수 있다. 구체적으로는 데이터베이스(720)에서 특정 객체가 후각과 관련된 객체로 지정되어 있는 지 여부에 따라 냄새 객체인지 여부가 결정될 수 있다. 한편, 데이터베이스(720)에서 냄새 객체로 지정된 경우라 하더라도 향기 디바이스(740)에서 보유하고 있는 향기 콤포넌츠(741)에서 지원하지 않는 향기의 종류라면 도 7의 시스템 환경에서는 향기 지원이 불가능할 것이므로, 냄새 객체 검출기(711) 모듈은 실시예에 따라서는 향기 디바이스(740)로부터 향기 콤포넌츠(741)의 목록에 대한 정보를 수신하여 냄새 객체를 식별하는 기준으로 이용할 수 있다.
본 발명의 후각 정보 인식 장치는 도 7의 포터블 디바이스(730) 또는 서버(710) 중 어느 하나로 구현될 수 있다. 도 7의 포터블 디바이스(730)와 같이 멀티미디어 기능을 가지고 사물인터넷에 접속할 수 있는 미디어 사물(Media Thing)에서 냄새 객체에 대한 정보를 공유할 수 있도록 표준화된 데이터 포맷으로 기술될 수 있다.
냄새 객체는 설명의 편의상 이미지 데이터에 대한 냄새 이미지(Odor image)를 중심으로 설명하였으나, 인간의 오감과 관련된 다른 종류의 냄새 객체도 구현될 수 있다. 예를 들어 멀티미디어 콘텐츠가 소리를 주요한 요소로 포함하는 경우에는 특정한 냄새를 연상하게 하는 소리가 냄새 사운드(Odor sound)로 추출될 수 있다. 예를 들어 고기 굽는 소리는 구워지는 고기의 냄새를 연상하게 하는 냄새 사운드이고, 과일을 자르거나 조리하는 소리는 과일의 냄새를 연상하게 하는 냄새 사운드로 분류될 수 있다. 또한 자동차가 주행 중 내는 소리로부터는 휘발유 냄새를 연상하게 할 수 있으므로 자동차가 냄새 사운드로 분류될 수도 있을 것이다.
특정한 촉각에 의하여 구체화될 수 있는 객체가 특정한 냄새를 연상케 한다면 냄새 객체는 촉각에 의하여 정의될 수도 있다.
촉각이나 청각의 경우 콘텐츠가 제시하는 정보가 시각 정보에 비하여 작을 수 있으므로 보다 추상화된 정황을 고려하여 추가적인 분류가 필요할 수 있다. 예를 들어, '커피 냄새'를 연상하게 하는 이미지로는 커피 원두, 커피 포트에서 끓고 있는 물, 컵에 담겨 있는 커피, 커피 머신에서 커피를 받아 내리는 이미지 등이 있을 수 있다. 그런데 예를 들어 물이 끓는 소리는 커피와 연관될 지, 다른 음료와 연관될 지 명확히 구분되지 않는다. 이때에는 콘텐츠와 연관되는 다른 컨텍스트 정보를 더 포함하여 분석함으로써 해당 멀티미디어 콘텐츠에서 가리키는 객체가 어떤 것인지를 구체화하는 과정이 더 필요할 수 있다.
또한 냄새 객체에 대한 정보는 단일한 라벨 정보로 표현되는 것만이 아니고, 추상화된 상위개념과 하위개념을 가지는 계층적(hierarchical) 정보일 수도 있다. 예를 들어, 커피 원두는 상위의 개념이 커피향으로 구분될 수도 있지만, 더 상위의 기호 음료로 구분될 수도 있다. 정황 상 커피와 차(Tea) 중 어느 것도 컨텍스트 상 이상하지 않은 상황이라면 향기 디바이스(740)가 보유하는 향기 콤포넌츠(741) 중에서 커피 향기 콤포넌트는 없고 차 향기 콤포넌트만 보유한 상황에서는 해당 콘텐츠를 차 향기에 대응하는 향기 객체로 인지할 수도 있다.
마찬가지로, 사과 향기는 상위 개념으로 과일 냄새로 구분될 수 있고, 과일 냄새는 더 상위의 달콤한 냄새로 구분될 수도 있다.
도 8은 본 발명의 일 실시예에 따른 후각 정보 인식 방법을 도시하는 동작 흐름도이다.
도 8을 참조하면, 본 발명의 후각 정보 인식 장치의 프로세서에서 실행되는 후각 정보 인식 방법이 도시된다. 도 7의 서버(710)의 냄새 객체 검출기(711)도 도 8의 방법을 실행할 수 있는 프로세서의 일부를 구성할 수 있다. 프로세서는 멀티미디어 콘텐츠를 수신한다(S810). 프로세서는 멀티미디어 콘텐츠가 포함하는 적어도 하나 이상의 제1 객체 및 제1 객체에 대한 제1 라벨 정보를 검출한다(S820). 이때 제1 라벨 정보 및 제1 객체의 검출 과정은 콘텐츠에 부가된 라벨 정보와 그 라벨 정보가 가리키는 객체를 식별하는 과정으로 대체될 수 있다. 다만 콘텐츠가 언라벨 데이터(Unlabeled data)인 경우에는 데이터에 대한 분석을 통하여 제1 객체를 추출하고, 제1 라벨을 생성해야 할 것이다. 언라벨 데이터가 언라벨 이미지인 경우에는 분할(segmentation), 분류 및 위치 분석(Classification and Localization), 객체의 검출(Object Detection), 객체에 대한 분류 및 영역 분할(Instance Segmentation) 등의 과정을 거쳐 객체를 식별해 낼 수 있다.
프로세서는 적어도 하나 이상의 제1 객체가 멀티미디어 콘텐츠 내에서 점유하는 상대적인 위치 정보를 포함하는 제2 라벨 정보를 추출한다(S830). 이 과정은 앞서 설명한 본 발명에서 제안된 개선된 약한 지도 학습(weakly supervised learning)에 의하여 이루어질 수 있다. 이때 얻어지는 제2 라벨 정보는 제1 객체 각각의 상대적인 위치 정보, 상대적인 크기 정보, 제1 객체 각각이 콘텐츠의 중심으로부터 이격된 거리, 제1 객체가 복수인 경우 제1 객체들 간의 거리에 관한 정보를 포함할 수 있다.
프로세서는 제1 객체가 냄새 객체인지 여부를 식별한 결과를 제3 라벨 정보로서 생성한다(S840). 제1 객체가 냄새 객체인지 여부는 데이터베이스(720)에 규정된 냄새 객체로 분류 가능한 객체의 리스트를 참고하여 수행될 수 있다. 이때 제1 객체가 냄새 객체인 지 여부는 향기 디바이스(740)의 향기 콤포넌츠(741)의 목록을 고려하여 수행될 수도 있다.
제1 객체가 냄새 객체인지 여부를 식별하는 단계 S840은 단계 S830에 앞서 실행될 수도 있고, 단계 S830과 동시에 실행될 수도 있으며, 단계 S830과는 별개의 과정으로 병행하여 실행될 수도 있다. 단계 S840은 단계 S830이 실행된 이후에 실행될 수도 있다. 냄새 객체인 지 여부를 판정하는 것은 단순히 이미지 또는 사운드 데이터만을 이용해서 얻기 어려울 수 있어서 컨텍스트 정보를 추가로 고려하여 단계 S840이 실행될 수도 있다.
도 9는 본 발명의 일 실시예에 따른 후각 정보 인식 방법을 도시하는 동작 흐름도이다.
도 9를 참조하면, 도 8의 방법과 마찬가지로 후각 정보 인식 장치의 프로세서에 의하여 실행될 수 있고, 도 7의 서버(710)의 냄새 객체 검출기(711)도 도 9의 방법을 실행할 수 있는 프로세서의 일부를 구성할 수 있다.
프로세서에 의하여 실행되는 단계 S910, S920, S930, 및 S940은 도 8의 단계 S810, S820, S830, 및 S840과 유사하게 실행되므로 중복되는 설명은 생략한다.
멀티미디어 콘텐츠 내에 포함된 제1 객체 중 냄새 객체로 식별된 제2 객체가 그 콘텐츠의 지배적인 냄새 객체(Dominant Odor object)인지 여부를 판정한 결과가 제4 라벨 정보로서 생성된다(S950).
지배적인 냄새 객체를 식별하는 과정은 단순히 그 객체가 콘텐츠 내에서 지배적인 크기, 점유율, 지배적인 점유 시간을 가지고 있다고 하더라도 객체와 후각과의 관련성이 약하면 지배적인 냄새 객체가 될 수 없다. 즉, 지배적인 냄새 객체를 인식하기 위해서는 객체가 특정한 후각/냄새와 얼마나 강하게 연관되어 있는지, 또한 그 연관된 냄새가 일반적인 인간이 느끼기에 강한 냄새인지 여부가 추가적으로 고려되어야 한다.
그 외에는 냄새 객체가 지배적인 냄새 객체인지 여부를 판정하는 기준은 여타의 객체가 지배적인 객체인지 여부를 판정하는 기준을 차용할 수 있다. 즉, 콘텐츠가 이미지라면 객체가 이미지의 중심부에서 얼마나 떨어져 위치하는지, 객체의 크기가 이미지 전체에서 얼마나 큰 비중을 차지하는 지 등이 고려될 수 있다. 이미지에 시각적으로는 사람이 지배적인 객체라면, 그 사람과 거리가 가까울수록 냄새 객체로서는 지배적일 가능성이 있으므로 이미지 내의 다른 객체들과의 거리도 추가적으로 고려될 수 있다.
도 10은 본 발명의 일 실시예에 따른 라벨 정보 생성 방법을 도시하는 동작 흐름도이다.
도 10은 본 발명의 라벨 정보 생성 장치에 포함되는 프로세서에 의하여 실행될 수 있다.
프로세서는 멀티미디어 콘텐츠를 수신한다(S1010).
프로세서는 멀티미디어 콘텐츠가 포함하는 적어도 하나 이상의 제1 객체 및 제1 객체에 대응하는 제1 라벨 정보를 검출한다(S1020).
프로세서는 제1 객체에 대한 제1 라벨 정보를 약한 지도 학습 과정에 적용하여 멀티미디어 콘텐츠에 대한 기계 학습을 수행한다(S1030).
프로세서는 약한 지도 학습의 결과로서 얻어지는 파라미터(가중치 행렬)에 기반하여 제1 객체에 대한 제2 라벨 정보를 추출한다(S1040). 제2 라벨 정보는 제1 객체의 콘텐츠 내에서 상대적인 위치에 대한 정보를 포함한다.
도 11은 본 발명의 일 실시예에 따른 라벨 정보 생성 방법을 도시하는 동작 흐름도이다.
도 11의 단계 S1110, S1120, S1130, 및 S1140은 각각 도 10의 단계 S1010, S1020, S1030, 및 S1040과 유사하므로 중복되는 설명은 생략한다.
프로세서는 제1 객체에 대한 제1 라벨 정보 및 제2 라벨 정보를 포함하는 데이터의 집합체인 모델을 형성한다(S1150). 프로세서는 모델을 이용하여 unlabeled 멀티미디어 콘텐츠에 대한 분석을 실행하고, unlabeled 멀티미디어 콘텐츠가 포함하는 제2 객체에 대한 제1 라벨 정보 및 제2 라벨 정보를 검출한다(S1160).
향기 디바이스(740) 등에서 보유하고 있는 향기 콤포넌트(Scent Component)(741)의 특성(characteristics)은 미디어 사물의 후각과 관련된 특성으로 정의할 수 있다. 미디어 사물, 특히 예를 들어 발향 장치인 경우에 향기 카트리지(Scent Cartridge)에 복수의/다수의 향기 콤포넌트가 장착되어 사용되는 경우가 일반적이다. 향기 콤포넌트는 개별적인 특성을 가지며 특정한 도메인에 대응한다. 향기 콤포넌트가 대응하는 특정한 도메인을 인간이 직관적으로 인지하는 언어로 표현하는 것이 향기 콤포넌트의 라벨(Label) 정보이다.
다른 실시예에서는 향기 콤포넌트에 대한 텍스트 기반의 라벨 정보가 사용자에 의하여 입력된 경우를 가정할 수 있다. 이때에는 향기 콤포넌트에 대한 라벨 정보가 널리 이용되는 냄새 이미지에 대한 라벨 정보와 일치하지 않을 수 있다. 후각 정보 생성 장치는 텍스트에 대한 구문 분석을 통하여 향기 콤포넌트에 대하여 사용자가 입력한 라벨 정보와 관련도가 높은 라벨 정보, 및 냄새 이미지에 대한 라벨 정보를 수집할 수 있다. 후각 정보 생성 장치는 향기 콤포넌트에 대하여 사용자가 입력한 라벨 정보와 함께 데이터베이스에 대한 검색, 패턴 인식 및 텍스트 구문 분석을 통하여 도출된 라벨 정보(일반화된, 표준화된, 또는 미리 수집된 라벨 정보)를 함께 메모리 또는 데이터베이스에 저장할 수 있다.
냄새 객체는 특정한 카테고리 또는 특징적인 냄새를 연상시키며 대표성을 가지는 단어로 구체화될 수 있다. 베이컨, 오렌지, 커피, 물, 나무 등은 특정한 냄새를 연상시키며, 그 특유의 분위기를 시사할 수도 있다. 예를 들어, 베이컨은 '식사 중'이라는 분위기를 암시하며, 오렌지는 달콤함, 향긋함을 암시할 수 있고, 커피는 휴식 또는 대화의 분위기를 암시하며, 물은 신선함, 건강, 나무는 신선함, 자연이라는 이미지를 연상시킬 수도 있다.
이처럼 특정한 냄새 객체에 대하여 라벨 정보를 표현하고, 그 라벨 정보가 시사하는 추상적인 상위 개념에 대하여 부가적인 라벨 정보가 추가될 수도 있다.
또는 하나의 냄새 객체에 대하여 다수의 상위 개념이 경합적으로 기재될 수도 있는데, 예를 들어 오렌지는 '과일'이라는 상위 개념 또는 '달콤함'이라는 추상적 개념과 연계될 수 있으므로 이러한 키워드들과도 연계될 수 있다.
이러한 냄새 객체의 키워드들 간의 의미 유사성(semantic similarity) 또는 의미 연관성(semantic relation)은 자연어 처리의 원리를 적용하여 얻어질 수 있고, 인공지능 기반의 머신 러닝에 의하여 보강되고 더욱 구체화 및 다양화될 수 있다.
후각 정보 인식 장치가 별도의 디바이스로 구현되는 경우 디바이스는 프로세서, 메모리, 스토리지, 통신모듈을 포함할 수 있다. 프로세서는 냄새 이미지의 추출, 냄새 이미지의 라벨 정보 인식(또는 인식을 위하여 다른 미디어 사물에 명령어를 전송) 등의 기능을 수행할 수 있다. 필요한 정보는 메모리 또는 스토리지에 저장될 수 있으며, 다른 미디어 사물들과 통신 및 공유를 위하여 통신 모듈이 포함될 수 있다.
본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 프로그램 인스트럭션, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
200, 300, 400: 라벨 이미지들(Labeled images)
201, 301, 401: 제1 라벨들
202, 302, 402: 제2 라벨들(객체들에 대한 위치 정보를 포함)
210: 학습(212)에 의하여 형성된 모델
310: 학습(312)에 의하여 형성된 모델
410: 학습(412)에 의하여 형성된 모델
430: 언라벨 이미지들(Unlabeled images)
431: 언라벨 이미지들에 대하여 검출된 제1 라벨들
432: 언라벨 이미지들에 대하여 검출된 제2 라벨들
710: 서버
720: 냄새 객체가 분류된 데이터베이스
730: 포터블 디바이스
740: 향기 디바이스

Claims (18)

  1. 멀티미디어 콘텐츠에 기반한 후각 정보를 인식하는 장치에 있어서,
    프로세서;
    를 포함하고,
    상기 프로세서는,
    상기 멀티미디어 콘텐츠를 수신하고,
    상기 멀티미디어 콘텐츠가 포함하는 적어도 하나의 제1 객체 및 상기 적어도 하나의 제1 객체에 대한 제1 라벨 정보를 검출하고,
    상기 적어도 하나의 제1 객체의 상기 멀티미디어 콘텐츠 내에서 상대적인 위치 정보를 포함하는 제2 라벨 정보를 추출하고,
    상기 검출된 적어도 하나의 제1 객체가 냄새와 관련된 냄새 객체(odor object)인지 여부를 식별한 결과를 제3 라벨 정보로서 생성하고,
    상기 적어도 하나의 제1 객체에 대한 상기 제1 라벨 정보를 약한 지도 학습 과정(weakly supervised learning process)에 적용하여 상기 멀티미디어 콘텐츠에 대한 기계 학습을 수행하고,
    상기 기계 학습의 결과로서 상기 멀티미디어 콘텐츠에 대한 상기 제1 라벨 정보, 상기 제2 라벨 정보, 및 상기 제3 라벨 정보를 포함하는 데이터의 집합체인 모델을 형성하는, 후각 정보 인식 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 적어도 하나의 제1 객체 중 상기 멀티미디어 콘텐츠에 대하여 상기 냄새 객체로 식별된 제2 객체가 상기 멀티미디어 콘텐츠의 지배적인 냄새 객체인지 여부를 판정한 결과를 제4 라벨 정보로서 생성하는 후각 정보 인식 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 적어도 하나의 제1 객체 중 상기 멀티미디어 콘텐츠에 대하여 상기 냄새 객체로 식별된 상기 제2 객체가 상기 멀티미디어 콘텐츠 내에서 점유하는 비율, 및 상기 멀티미디어 콘텐츠 내에서 점유하는 상대적인 위치에 기반하여 상기 멀티미디어 콘텐츠의 상기 지배적인 냄새 객체인 지 여부를 판정하는 후각 정보 인식 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 적어도 하나의 제1 객체에 대한 상기 제1 라벨 정보를 약한 지도 학습 과정(weakly supervised learning process)에 적용하여 상기 멀티미디어 콘텐츠에 대한 기계 학습을 수행하고,
    상기 제1 라벨 정보를 상기 약한 지도 학습 과정에 적용한 상기 기계 학습의 결과로서 얻어지는 파라미터에 기반하여 상기 적어도 하나의 제1 객체에 대한 상기 제2 라벨 정보를 추출하는 후각 정보 인식 장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 제1 라벨 정보를 상기 약한 지도 학습 과정에 적용한 상기 기계 학습이 수행되는 동안, 컨볼루션 신경 네트워크(CNN)의 컨볼루션 필터의 특징 가중치(feature weight)의 분포에 기반하여 상기 적어도 하나의 제1 객체에 대한 상기 제2 라벨 정보를 추출하는 후각 정보 인식 장치.
  6. 삭제
  7. 프로세서를 포함하는 사물 디바이스에 의하여 실행되는, 멀티미디어 콘텐츠에 기반한 후각 정보를 인식하는 후각 정보 인식 방법에 있어서,
    상기 프로세서에 의하여, 멀티미디어 콘텐츠를 수신하는 단계;
    상기 프로세서에 의하여, 상기 멀티미디어 콘텐츠가 포함하는 적어도 하나의 제1 객체 및 상기 적어도 하나의 제1 객체에 대한 제1 라벨 정보를 검출하는 단계;
    상기 프로세서에 의하여, 상기 적어도 하나의 제1 객체의 상기 멀티미디어 콘텐츠 내에서 상대적인 위치 정보를 포함하는 제2 라벨 정보를 추출하는 단계;
    상기 프로세서에 의하여, 상기 검출된 상기 적어도 하나의 제1 객체가 냄새와 관련된 냄새 객체(odor object)인지 여부를 식별한 결과를 제3 라벨 정보로서 생성하는 단계; 및
    상기 프로세서에 의하여, 상기 적어도 하나의 제1 객체에 대한 상기 제1 라벨 정보를 약한 지도 학습 과정(weakly supervised learning process)에 적용하여 상기 멀티미디어 콘텐츠에 대한 기계 학습을 수행한 결과로서 상기 멀티미디어 콘텐츠에 대한 상기 제1 라벨 정보, 상기 제2 라벨 정보, 및 상기 제3 라벨 정보를 포함하는 데이터의 집합체인 모델을 형성하는 단계를 포함하는, 후각 정보 인식 방법.
  8. 제7항에 있어서,
    상기 프로세서에 의하여, 상기 적어도 하나의 제1 객체 중 상기 멀티미디어 콘텐츠에 대하여 상기 냄새 객체로 식별된 제2 객체가 상기 멀티미디어 콘텐츠의 지배적인 냄새 객체인지 여부를 판정한 결과를 제4 라벨 정보로서 생성하는 단계;
    를 더 포함하는 후각 정보 인식 방법.
  9. 제8항에 있어서,
    상기 제2 객체가 상기 멀티미디어 콘텐츠의 지배적인 냄새 객체인지 여부를 판정한 결과를 제4 라벨 정보로서 생성하는 단계는,
    상기 제2 객체가 상기 멀티미디어 콘텐츠 내에서 점유하는 비율, 및 상기 멀티미디어 콘텐츠 내에서 점유하는 상대적인 위치에 기반하여 상기 멀티미디어 콘텐츠의 상기 지배적인 냄새 객체인 지 여부를 판정한 결과를 상기 제4 라벨 정보로서 생성하는 후각 정보 인식 방법.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
KR1020170119835A 2017-09-18 2017-09-18 멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법 KR102040309B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170119835A KR102040309B1 (ko) 2017-09-18 2017-09-18 멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법
US15/822,393 US20190087425A1 (en) 2017-09-18 2017-11-27 Apparatus and method for recognizing olfactory information related to multimedia content and apparatus and method for generating label information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170119835A KR102040309B1 (ko) 2017-09-18 2017-09-18 멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190031866A KR20190031866A (ko) 2019-03-27
KR102040309B1 true KR102040309B1 (ko) 2019-11-04

Family

ID=65720400

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170119835A KR102040309B1 (ko) 2017-09-18 2017-09-18 멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법

Country Status (2)

Country Link
US (1) US20190087425A1 (ko)
KR (1) KR102040309B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102608981B1 (ko) * 2018-10-24 2023-12-01 한국전자통신연구원 향 시각화 시스템 및 방법
WO2020116490A1 (ja) * 2018-12-05 2020-06-11 株式会社レボーン 情報処理装置、情報処理方法、学習済みモデルの生成方法及びプログラム
US20220130135A1 (en) * 2019-03-13 2022-04-28 Nec Corporation Data generation method, data generation device, and program
US11526705B2 (en) 2019-04-01 2022-12-13 Lg Electronics Inc. Method of classificating outlier in object recognition and device and robot of classifying thereof
US10783643B1 (en) 2019-05-27 2020-09-22 Alibaba Group Holding Limited Segmentation-based damage detection
CN110264444B (zh) * 2019-05-27 2020-07-17 阿里巴巴集团控股有限公司 基于弱分割的损伤检测方法及装置
KR102355123B1 (ko) 2019-10-21 2022-01-24 주식회사 엘지유플러스 바이오 데이터 허브를 구축하는 방법 및 장치
CN113420696A (zh) * 2021-07-01 2021-09-21 四川邮电职业技术学院 一种气味发生控制方法、系统及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100970098B1 (ko) * 2008-05-28 2010-07-16 성균관대학교산학협력단 유비쿼터스 환경에서 위치정보에 기반한 집단지능형 오감멀티미디어 컨텐츠 제공 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문1:2016.12.19*

Also Published As

Publication number Publication date
KR20190031866A (ko) 2019-03-27
US20190087425A1 (en) 2019-03-21

Similar Documents

Publication Publication Date Title
KR102040309B1 (ko) 멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법
Li et al. Zero-shot event detection via event-adaptive concept relevance mining
CN111602141B (zh) 影像视觉关系检测方法和系统
CN110719518A (zh) 多媒体数据处理方法、装置和设备
US9767386B2 (en) Training a classifier algorithm used for automatically generating tags to be applied to images
US10963702B1 (en) Method and system for video segmentation
Hoang Ngan Le et al. Robust hand detection and classification in vehicles and in the wild
CN102663015B (zh) 基于特征袋模型和监督学习的视频语义标注方法
Jiang et al. Understanding and predicting interestingness of videos
CN110325983A (zh) 图像检索装置和图像检索方法
JP2017138985A (ja) 人工知能に基づくモバイル検索方法及び装置
US20130259399A1 (en) Video recommendation system and method thereof
CN106020448B (zh) 基于智能终端的人机交互方法和系统
US10685236B2 (en) Multi-model techniques to generate video metadata
CN102549603A (zh) 基于相关性的图像选择
EP2639745A1 (en) Object identification in images or image sequences
Dai et al. Toyota smarthome untrimmed: Real-world untrimmed videos for activity detection
CN112100438A (zh) 一种标签抽取方法、设备及计算机可读存储介质
WO2019137391A1 (zh) 对视频进行分类匹配的方法、装置和挑选引擎
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN110489649B (zh) 标签关联内容的方法及装置
CN111814817A (zh) 视频分类方法、装置、存储介质及电子设备
EP3308300A1 (en) Determining image captions
KR20190118904A (ko) 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법
CN116665083A (zh) 一种视频分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant