KR102411301B1 - 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법 - Google Patents

시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법 Download PDF

Info

Publication number
KR102411301B1
KR102411301B1 KR1020200049189A KR20200049189A KR102411301B1 KR 102411301 B1 KR102411301 B1 KR 102411301B1 KR 1020200049189 A KR1020200049189 A KR 1020200049189A KR 20200049189 A KR20200049189 A KR 20200049189A KR 102411301 B1 KR102411301 B1 KR 102411301B1
Authority
KR
South Korea
Prior art keywords
image
caption
domain
generated
word
Prior art date
Application number
KR1020200049189A
Other languages
English (en)
Other versions
KR20210130980A (ko
Inventor
최호진
한승호
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020200049189A priority Critical patent/KR102411301B1/ko
Priority to PCT/KR2020/019203 priority patent/WO2021215620A1/ko
Priority to US17/920,067 priority patent/US20230206661A1/en
Publication of KR20210130980A publication Critical patent/KR20210130980A/ko
Application granted granted Critical
Publication of KR102411301B1 publication Critical patent/KR102411301B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4888Data services, e.g. news ticker for displaying teletext characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치에 관한 것으로, 클라이언트로부터 제공받은 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 캡션 생성기;를 포함하며, 상기 클라이언트는 사용자 디바이스;를 포함하고, 상기 캡션 생성기는 상기 사용자 디바이스와 유무선 통신 방식으로 연결된 서버;를 포함한다.

Description

시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법{APPARATUS AND METHOD FOR AUTOMATICALLY GENERATING DOMAIN SPECIFIC IMAGE CAPTION USING SEMANTIC ONTOLOGY}
본 발명은 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법에 관한 것으로, 보다 상세하게는 사용자로부터 제공되는 새로운 이미지에 대해, 이미지 안의 오브젝트 정보와 속성 정보를 찾아내고, 이를 활용하여 이미지를 설명하는 자연어 문장을 생성할 수 있도록 하는, 시맨틱 온톨로지(Semantic Ontology)를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법에 관한 것이다.
일반적으로 이미지 캡셔닝이란, 사용자로부터 주어진 이미지에 대해서 그 이미지를 설명하는 자연어(natural language) 문장을 생성하는 것을 말한다. 인공지능의 다양한 기술이 발전하기 이전에는 이미지 캡셔닝을 사람이 직접 수행했었지만 최근 컴퓨팅 파워 증가, 기계학습과 같은 인공지능 기술의 발전으로 기계를 이용하여 자동으로 캡션을 생성하는 기술이 개발되고 있다.
이전의 자동 캡션 생성 기술은 기존에 존재하는 많은 이미지와 각 이미지에 달린 라벨(즉, 이미지에 설명하는 한 단어) 정보를 이용하여 같은 라벨을 갖는 이미지를 검색하거나, 유사한 이미지들의 라벨들을 하나의 이미지에 할당하여 이미지에 대해 복수의 라벨을 이용하여 이미지에 대한 설명을 시도하는 정도였다.
본 발명의 배경기술은 대한민국 등록특허 10-1388638호(2014.04.17. 등록, 이미지에 주석 달기)에 개시되어 있다.
상기 배경기술은 입력 이미지에 대해 해당 이미지와 이미지 라벨이 연관된 하나 이상의 최근접 이웃 이미지를 저장된 이미지들의 집합 중에 찾고, 선택된 각 이미지들의 라벨을 입력 이미지에 대한 복수 라벨로 할당함으로써 주석을 달고, 상기 입력 이미지와 연관된 상기 최근접 이웃 이미지의 경우, 모든 이미지의 특징을 추출하고, 상기 추출된 각 특징 간의 거리를 거리 유도 알고리즘을 학습하여 계산하며, 최종적으로 입력 이미지에 대한 관련된 복수의 라벨들을 생성하는 것으로서, 상기 배경기술은 생성된 이미지에 대한 주석이 완전한 문장 형태로 형성되는 것이 아니라, 단순히 이미지에 관련된 단어들을 나열하는 방식으로서, 이는 주어진 입력 이미지에 대한 문장 형태의 설명이라고 할 수 없으며, 또한 도메인특화 이미지캡션이라고 할 수도 없다.
본 발명의 일 측면에 따르면, 본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 사용자로부터 제공되는 새로운 이미지에 대해, 이미지 안의 오브젝트 정보와 속성 정보를 찾아내고, 이를 활용하여 이미지를 설명하는 자연어 문장을 생성할 수 있도록 하는, 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법을 제공하는 데 그 목적이 있다.
본 발명의 일 측면에 따른 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치는, 클라이언트로부터 제공받은 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 캡션 생성기;를 포함하며, 상기 클라이언트는 사용자 디바이스;를 포함하고, 상기 캡션 생성기는 상기 사용자 디바이스와 유무선 통신 방식으로 연결된 서버;를 포함하는 것을 특징으로 한다.
본 발명에 있어서, 상기 캡션 생성기는, 이미지캡션 생성부를 통해 사용자 디바이스로부터 전달 받은 이미지를 딥러닝 알고리즘을 이용하여 이미지 내 속성과 오브젝트 정보를 찾고, 상기 찾은 정보를 이용하여 자연어를 이용해 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 캡션 생성기는, 온톨로지 생성부를 통해 사용자가 목표로 하는 도메인에 대한 시맨틱 온톨로지를 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 캡션 생성기는, 이미지캡션 생성부와 온톨로지 생성부의 결과들을 이용하는 도메인특화 이미지캡션 생성보를 통해 상기 이미지캡션 생성부에서 생성된 캡션 중 특정된 일반 단어를 도메인특화 단어로 대체하여 도메인에 특화된 이미지캡션을 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 캡션 생성기는, 사용자 디바이스로부터 도메인에 특화된 이미지가 입력되면, 이미지캡션 생성부가 상기 입력된 이미지에 대한 속성과 오브젝트 정보를 추출하고, 추출된 정보를 이용하여 문장 형태의 이미지캡션을 생성하고, 온톨로지 생성부가 온톨로지 생성 도구를 이용하여 상기 생성된 이미지캡션의 특정 단어들과 관련된 온톨로지 정보인 도메인특화 정보를 추출하며, 도메인특화 이미지캡션 생성부가 상기 생성된 이미지캡션과 상기 추출된 온톨로지 정보인 도메인특화 정보를 이용하여 상기 문장 형태의 이미지캡션에서 특정된 일반 단어를 도메인특화 단어로 대체하여 도메인 특화된 이미지캡션 문장을 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 이미지 캡션 생성부는, 이미지를 입력받으면, 속성 추출을 통해 이미지와 가장 관련된 단어들을 추출하고 추출된 각 단어들을 벡터 표현으로 변환하고, 상기 이미지에 대한 오브젝트 인식을 통해 이미지 내의 중요 오브젝트들을 추출하여 각 오브젝트 영역들을 벡터 표현으로 변환하며, 상기 속성 추출과 오브젝트 인식을 통해 생성된 벡터들 이용하여 상기 입력받은 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 이미지 캡션 생성부는, 상기 이미지에 대한 오브젝트 인식을 위하여, 딥러닝 기반 오브젝트 인식 모델을 활용하여 미리 학습하고, 입력된 이미지 내의 미리 정의된 오브젝트 집합에 해당하는 부분의 오브젝트 영역을 추출하는 것을 특징으로 한다.
본 발명에 있어서, 상기 이미지 캡션 생성부는, 이미지 및 문법 정보가 태깅된 이미지캡션 데이터를 입력받아 학습하고, 입력된 이미지와 이미지캡션 데이터로부터 이미지의 속성 추출을 통해 이미지에 관련된 단어 정보들을 추출하여 이를 벡터 표현으로 변환하고 이 벡터들의 평균을 계산하며, 또한 이미지의 오브젝트 인식을 통해 이미지에 관련된 오브젝트 영역 정보들을 추출하여 이를 벡터 표현으로 변환하고 이 벡터들의 평균을 계산하고, 상기 이미지의 속성 추출을 통해 얻은 단어 벡터들에 대해서 이전 시간 단계에서 생성한 단어와 문법을 고려하여 현재 시간 단계에서 생성할 단어와 연관이 높은 벡터들에 대해서 단어 주의도(attention score)를 계산하며, 상기 이미지의 오브젝트 인식을 통해 얻은 영역 벡터들에 대해서 영역 주의도를 계산하고, 상기 생성된 단어 주의도 및 영역 주의도 값들과 이미지 속성 추출 과정을 통해 계산한 평균 벡터, 이미지 오브젝트 인식 과정을 통해 계산한 평균 벡터 값, 이전의 언어 생성 과정에서 생성한 단어, 및 이전까지 언어 생성 과정을 통해 생성했던 모든 단어들에 대한 압축된 정보(hidden state value)를 모두 고려하여 현재 시간단계에서 단어 및 단어의 문법 태그를 예측하며, 상기 예측한 단어 및 단어의 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어와 문법 태그에 대한 손실값을 각각 계산하고, 상기 손실값들을 반영하여 이미지캡션 생성 과정의 학습 파라미터들을 업데이트하는 것을 특징으로 한다.
본 발명에 있어서, 상기 이미지 캡션 생성부는, 상기 이미지에 대한 속성 추출을 위하여, 딥러닝 알고리즘 기반의 이미지-텍스트 임베딩 모델을 이용하여 미리 학습하고, 상기 이미지-텍스트 임베딩 모델은, 복수의 이미지와 각 이미지와 관련된 단어들을 하나의 벡터 공간에 맵핑하여, 새로운 이미지가 입력되었을 때, 새로운 이미지와 관련된 단어들을 출력하거나 추출해주는 모델이며, 각 이미지에 관련된 단어들은 이미지캡션 데이터베이스를 이용하여 미리 추출하여 학습에 이용하는 것을 특징으로 한다.
본 발명에 있어서, 상기 문장 형태의 이미지캡션을 생성하기 위하여, 상기 이미지 캡션 생성부는, 속성 주의 과정, 오브젝트 주의 과정, 문법 학습 과정, 및 언어 생성 과정을 수행하며, 이 과정들은 딥러닝 알고리즘을 이용해 학습이 이루어지고, 또한 RNN(Recurrent neural network) 기반으로 문장을 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 속성 주의 과정은, 이미지의 속성 추출을 통해 생성된 벡터들에 대해 현재 시간 단계에서 상기 언어 생성 과정에서 생성할 단어와 관련성이 높은 단어 순서로 단어 주의도(attention score)를 부여하며, 상기 오브젝트 주의 과정은, 이미지의 오브젝트 인식을 통해 생성된 오브젝트 영역들에 대해서 현재 시간 단계에서 상기 언어 생성 과정에서 생성할 단어와 관련성이 높은 영역 순서로 영역 주의도(attention score)를 부여하며, 상기 단어 주의도 및 영역 주의도는 0에서 1사이의 값을 가지며, 현재 시간 단계에서 생성된 단어와 관련성이 높을수록 1에 가까운 값을 부여받는 것을 특징으로 한다.
본 발명에 있어서, 상기 문법 학습 과정과 언어 생성 과정은, 하나의 딥러닝 모델로 단어 주의도 및 영역 주의도 값들과 상기 속성 주의 과정에서 생성된 벡터들의 평균과 상기 오브젝트 주의 과정에서 생성된 벡터들의 평균값들을 사용하여 각 시간 단계마다 캡션을 위한 단어와 이에 대한 문법 태그를 생성하는 것을 특징으로 한다.
본 발명의 다른 측면에 따른 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법은, 클라이언트가 캡션을 생성할 이미지를 캡션 생성기에 제공하는 단계; 및 캡션 생성기가 상기 클라이언트로부터 제공받은 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 단계;를 포함하며, 상기 클라이언트는 사용자 디바이스;를 포함하고, 상기 캡션 생성기는 상기 사용자 디바이스와 유무선 통신 방식으로 연결된 서버;를 포함하는 것을 특징으로 한다.
본 발명에 있어서, 상기 문장 형태의 이미지캡션을 생성하기 위하여, 상기 캡션 생성기는, 이미지캡션 생성부를 통해 사용자 디바이스로부터 전달 받은 이미지를 딥러닝 알고리즘을 이용하여 이미지 내 속성과 오브젝트 정보를 찾고, 상기 찾은 정보를 이용하여 자연어를 이용해 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 문장 형태의 이미지캡션을 생성하기 위하여, 상기 캡션 생성기는, 온톨로지 생성부를 통해 사용자가 목표로 하는 도메인에 대한 시맨틱 온톨로지를 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 문장 형태의 이미지캡션을 생성하기 위하여, 상기 캡션 생성기는, 이미지캡션 생성부와 온톨로지 생성부의 결과들을 이용하는 도메인특화 이미지캡션 생성보를 통해 상기 이미지캡션 생성부에서 생성된 캡션 중 특정된 일반 단어를 도메인특화 단어로 대체하여 도메인에 특화된 이미지캡션을 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 사용자 디바이스로부터 도메인에 특화된 이미지가 입력되면, 상기 캡션 생성기는, 이미지캡션 생성부가 상기 입력된 이미지에 대한 속성과 오브젝트 정보를 추출하고, 추출된 정보를 이용하여 문장 형태의 이미지캡션을 생성하고, 온톨로지 생성부가 온톨로지 생성 도구를 이용하여 상기 생성된 이미지캡션의 특정 단어들과 관련된 온톨로지 정보인 도메인특화 정보를 추출하며, 도메인특화 이미지캡션 생성부가 상기 생성된 이미지캡션과 상기 추출된 온톨로지 정보인 도메인특화 정보를 이용하여 상기 문장 형태의 이미지캡션에서 특정된 일반 단어를 도메인특화 단어로 대체하여 도메인 특화된 이미지캡션 문장을 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 사용자 디바이스로부터 도메인에 특화된 이미지가 입력되면, 상기 이미지 캡션 생성부는, 속성 추출을 통해 이미지와 가장 관련된 단어들을 추출하고 추출된 각 단어들을 벡터 표현으로 변환하고, 상기 이미지에 대한 오브젝트 인식을 통해 이미지 내의 중요 오브젝트들을 추출하여 각 오브젝트 영역들을 벡터 표현으로 변환하며, 상기 속성 추출과 오브젝트 인식을 통해 생성된 벡터들 이용하여 상기 입력받은 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 이미지를 설명하는 문장 형태의 이미지캡션을 생성하기 위하여, 상기 이미지 캡션 생성부는, 상기 이미지에 대한 오브젝트 인식을 위하여, 딥러닝 기반 오브젝트 인식 모델을 활용하여 미리 학습하고, 입력된 이미지 내의 미리 정의된 오브젝트 집합에 해당하는 부분의 오브젝트 영역을 추출하는 것을 특징으로 한다.
본 발명에 있어서, 상기 이미지를 설명하는 문장 형태의 이미지캡션을 생성하기 위하여, 상기 이미지 캡션 생성부는, 이미지 및 문법 정보가 태깅된 이미지캡션 데이터를 입력받아 학습하고, 입력된 이미지와 이미지캡션 데이터로부터 이미지의 속성 추출을 통해 이미지에 관련된 단어 정보들을 추출하여 이를 벡터 표현으로 변환하고 이 벡터들의 평균을 계산하며, 또한 이미지의 오브젝트 인식을 통해 이미지에 관련된 오브젝트 영역 정보들을 추출하여 이를 벡터 표현으로 변환하고 이 벡터들의 평균을 계산하고, 상기 이미지의 속성 추출을 통해 얻은 단어 벡터들에 대해서 이전 시간 단계에서 생성한 단어와 문법을 고려하여 현재 시간 단계에서 생성할 단어와 연관이 높은 벡터들에 대해서 단어 주의도(attention score)를 계산하며, 상기 이미지의 오브젝트 인식을 통해 얻은 영역 벡터들에 대해서 영역 주의도를 계산하고, 상기 생성된 단어 주의도 및 영역 주의도 값들과 이미지 속성 추출 과정을 통해 계산한 평균 벡터, 이미지 오브젝트 인식 과정을 통해 계산한 평균 벡터 값, 이전의 언어 생성 과정에서 생성한 단어, 및 이전까지 언어 생성 과정을 통해 생성했던 모든 단어들에 대한 압축된 정보(hidden state value)를 모두 고려하여 현재 시간단계에서 단어 및 단어의 문법 태그를 예측하며, 상기 예측한 단어 및 단어의 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어와 문법 태그에 대한 손실값을 각각 계산하고, 상기 손실값들을 반영하여 이미지캡션 생성 과정의 학습 파라미터들을 업데이트하는 것을 특징으로 한다.
본 발명에 있어서, 상기 이미지에 대한 속성 추출을 위하여, 상기 이미지 캡션 생성부는, 딥러닝 알고리즘 기반의 이미지-텍스트 임베딩 모델을 이용하여 미리 학습하고, 상기 이미지-텍스트 임베딩 모델은, 복수의 이미지와 각 이미지와 관련된 단어들을 하나의 벡터 공간에 맵핑하여, 새로운 이미지가 입력되었을 때, 새로운 이미지와 관련된 단어들을 출력하거나 추출해주는 모델이며, 각 이미지에 관련된 단어들은 이미지캡션 데이터베이스를 이용하여 미리 추출하여 학습에 이용하는 것을 특징으로 한다.
본 발명에 있어서, 상기 문장 형태의 이미지캡션을 생성하기 위하여, 상기 이미지 캡션 생성부는, 속성 주의 과정, 오브젝트 주의 과정, 문법 학습 과정, 및 언어 생성 과정을 수행하며, 이 과정들은 딥러닝 알고리즘을 이용해 학습이 이루어지고, 또한 RNN(Recurrent neural network) 기반으로 문장을 생성하는 것을 특징으로 한다.
본 발명에 있어서, 상기 속성 주의 과정은, 이미지의 속성 추출을 통해 생성된 벡터들에 대해 현재 시간 단계에서 상기 언어 생성 과정에서 생성할 단어와 관련성이 높은 단어 순서로 단어 주의도(attention score)를 부여하며, 상기 오브젝트 주의 과정은, 이미지의 오브젝트 인식을 통해 생성된 오브젝트 영역들에 대해서 현재 시간 단계에서 상기 언어 생성 과정에서 생성할 단어와 관련성이 높은 영역 순서로 영역 주의도(attention score)를 부여하며, 상기 단어 주의도 및 영역 주의도는 0에서 1사이의 값을 가지며, 현재 시간 단계에서 생성된 단어와 관련성이 높을수록 1에 가까운 값을 부여받는 것을 특징으로 한다.
본 발명에 있어서, 상기 문법 학습 과정과 언어 생성 과정은, 하나의 딥러닝 모델로 단어 주의도 및 영역 주의도 값들과 상기 속성 주의 과정에서 생성된 벡터들의 평균과 상기 오브젝트 주의 과정에서 생성된 벡터들의 평균값들을 사용하여 각 시간 단계마다 캡션을 위한 단어와 이에 대한 문법 태그를 생성하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 본 발명은 사용자로부터 제공되는 새로운 이미지에 대해, 이미지 안의 오브젝트 정보와 속성 정보를 찾아내고, 이를 활용하여 이미지를 설명하는 자연어 문장을 생성할 수 있도록 한다.
도 1은 본 발명의 일 실시예에 따른 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치의 개략적인 구성을 보인 예시도.
도 2는 본 발명의 일 실시예에 따른 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법을 설명하기 위한 흐름도.
도 3은 상기 도 1에 있어서, 이미지캡션 생성부의 동작을 설명하기 위한 흐름도.
도 4는 상기 도 1에 있어서, 이미지캡션 생성부의 학습 방법을 설명하기 위한 흐름도.
도 5는 상기 도 1에 있어서, 온톨로지 생성부로부터 생성된 공사현장 도메인에 대한 시맨틱 온톨로지를 보인 예시도.
도 6은 상기 도 5에 있어서, 온톨로지 생성부로부터 생성된 도메인-일반 단어 관계 온톨로지를 설명하기 위하여 보인 예시도.
도 7은 상기 도 1에 있어서, 도메인특화 이미지캡션 생성부에서 최종 결과를 생성하는 과정을 설명하기 위한 예시도.
도 8은 상기 도 7에 있어서, 최종적으로 생성된 문장 형태의 도메인특화 이미지캡션들을 보인 예시도.
이하, 첨부된 도면을 참조하여 본 발명에 따른 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법의 일 실시예를 설명한다.
이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치의 개략적인 구성을 보인 예시도이다.
도 1에 도시된 바와 같이, 본 실시예에 따른 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치(100)는, 클라이언트(110), 및 캡션 생성기(120)를 포함한다. 상기 클라이언트(110)와 상기 캡션 생성기(120)는 유무선 통신 방식으로 연결된다.
여기서 상기 캡션 생성기(120)(또는 서버)는 이미지캡션 생성부(121), 온톨로지 생성부(122), 및 도메인특화 이미지캡션 생성부(123)를 포함한다.
상기 클라이언트(110)는 처리할 이미지(즉, 캡션을 생성할 이미지)를 제공하는 구성요소로서, 사용자는 사용자 디바이스(111)를 통해 사진(즉, 이미지)을 캡션 생성기(120)(또는 서버)에 제공한다. 이때 상기 클라이언트(110)는 사용자 디바이스(예 : 스마트폰, 태블릿 PC 등)(111)를 포함한다.
상기 캡션 생성기(120)는 상기 사용자(즉, 사용자 디바이스(111))로부터 제공받은 이미지를 설명하는 캡션(즉, 이미지캡션)을 생성하고, 상기 생성된 캡션(즉, 이미지캡션)에 대한 근거를 사용자에게 반환한다.
상기 이미지캡션 생성부(121)는 상기 사용자(즉, 사용자 디바이스(111))로부터 전달 받은 이미지를 딥러닝 알고리즘을 이용하여 이미지 내 속성과 오브젝트 정보를 찾고, 상기 찾은 정보(예 : 이미지 내 속성과 오브젝트 정보)를 이용하여 자연어 설명 문장(예 : 주어, 동사, 목적어, 및 보어를 포함하는 지정된 형식을 갖는 문장)을 생성한다.
상기 온톨로지 생성부(122)는 사용자가 목표로 하는 도메인에 대한 시맨틱 온톨로지를 생성한다.
예컨대 상기 온톨로지 생성부(122)는 클래스, 인스턴스, 및 관계 등의 형태(예 : Protege 효과 등)로 온톨로지를 구축할 수 있는 모든 툴(tool, 도구)을 포함하고, 상기 툴(tool, 도구)을 이용하여 사용자는 사전에 도메인특화 지식을 온톨로지로 구축한다.
상기 도메인특화 이미지캡션 생성부(123)는 상기 이미지캡션 생성부(121)와 상기 온톨로지 생성부(122)의 결과들을 이용하여 상기 이미지캡션 생성부(121)에서 생성된 캡션을 재구조화 함으로써 도메인에 특화된 이미지캡션을 생성한다.
도 2는 본 발명의 일 실시예에 따른 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법을 설명하기 위한 흐름도이다.
도 2를 참조하면, 사용자(즉, 사용자 디바이스(111))로부터 도메인에 특화된 새로운 이미지(즉, 이미지 데이터)가 캡션 생성기(120)에 입력되면(S210), 이미지캡션 생성부(121)가 상기 입력된 이미지에 대한 속성과 오브젝트 정보를 추출하고, 추출된 정보를 이용하여 캡션(즉, 이미지캡션)을 생성한다(S220).
아울러 온톨로지 생성부(122)가 온톨로지 생성 도구를 이용하여 상기 생성된 캡션(즉, 이미지캡션)의 특정 단어들과 관련된 온톨로지 정보(즉, 도메인특화 정보)를 추출한다(S230).
참고로 상기 입력된 이미지에 대한 특정 온톨로지 정보는 미리 정의되어 있다고 가정한다.
다음 도메인특화 이미지캡션 생성부(123)가 상기 생성된 캡션(즉, 이미지캡션)과 상기 추출된 온톨로지 정보(즉, 도메인특화 정보)를 이용하여 도메인 특화된 이미지캡션 문장을 생성하여 사용자에게 반환한다(S240).
도 3은 상기 도 1에 있어서, 이미지캡션 생성부의 동작을 설명하기 위한 흐름도이다.
도 3을 참조하면, 이미지캡션 생성부(121)가 이미지를 설명하는 캡션을 생성하기 위해, 이미지(즉, 이미지 데이터)를 입력받으면(S310), 속성 추출을 통해 이미지와 가장 관련된 단어들을 추출하고 추출된 각 단어들을 벡터 표현으로 변환한다(S320). 아울러 상기 이미지(즉, 이미지 데이터)에 대한 오브젝트 인식을 통해 이미지 내의 중요 오브젝트들을 추출하고, 각 오브젝트 영역들을 벡터 표현으로 변환한다(S330).
상기 속성 추출과 오브젝트 인식을 통해 생성된 벡터들 이용하여 상기 입력 이미지를 설명하는 이미지캡션을 생성한다(S340).
상기 이미지캡션을 생성하기 위하여, 상기 이미지캡션을 생성하는 과정(S340)은, 속성 주의 과정(S341), 오브젝트 주의 과정(S342), 문법 학습 과정(S343), 언어 생성 과정(S344)을 포함할 수 있다.
이때 상기 과정들(S341 ~ S344)은 딥러닝 알고리즘을 이용해 학습이 이루어지고, 또한 RNN(Recurrent neural network)을 기반으로 하기 때문에 이미지에 대한 각 단어들을 예측할 때 시간 단계를 갖고 수행된다.
상기 속성 주의 과정(S341)은 상기 속성 추출을 통해 생성된 벡터들에 대해 현재 시간 단계에서 상기 언어 생성 과정(S344)에서 생성할 단어와 관련성이 높은 단어 순서로 단어 주의도(attention score)를 부여한다.
상기 오브젝트 주의 과정(S342)은 상기 오브젝트 인식을 통해 생성된 오브젝트 영역들에 대해서 현재 시간 단계에서 상기 언어 생성 과정(S344)에서 생성할 단어와 관련성이 높은 영역 순서로 영역 주의도(attention score)를 부여한다.
이때 상기 단어 주의도 및 영역 주의도는 0에서 1사이의 값을 가지며, 현재 시간 단계에서 생성된 단어와 관련성이 높을수록 1에 가까운 값을 부여받는다.
상기 문법 학습 과정(S343)과 언어 생성 과정(S344)은 하나의 딥러닝 모델로 상기 생성된 단어 주의도 및 영역 주의도 값들과 상기 속성 주의 과정(S341)에서 생성된 벡터들의 평균과 상기 오브젝트 주의 과정(S342)에서 생성된 벡터들의 평균값들을 사용하여 각 시간 단계마다 캡션을 위한 단어와 이에 대한 문법 태그를 생성한다.
이에 따라 상기 입력 이미지에 대해 이미지캡션 과정(340)을 통해 문법이 고려된 이미지캡션 문장(S350)을 생성하게 된다.
보다 구체적으로, 상기 이미지에 대한 속성 추출 과정(S320)은 이미지캡션 생성부(121)가 학습되기 전에 미리 학습되는 과정으로서, 딥러닝 알고리즘 기반의 이미지-텍스트 임베딩 모델을 이용하여 학습한다. 여기서 상기 이미지-텍스트 임베딩 모델은 많은 이미지와 각 이미지와 관련된 단어들을 하나의 벡터 공간에 맵핑하여, 새로운 이미지가 입력되었을 때, 새로운 이미지와 관련된 단어들을 출력(또는 추출)해주는 모델이다. 이때 각 이미지에 관련된 단어들을 이미지캡션 데이터베이스(미도시)를 이용하여 미리 추출하여 학습에 이용한다.
한편 이미지캡션 문장들로부터 이미지와 관련된 단어들을 추출하는 방법은, 가령, 각 이미지 당 5개의 캡션이 존재할 때, 캡션 내 동사 형태(동명사, 분사 포함)의 단어들과 기준(예 : 3번) 이상 동일하게 존재하는 명사 형태의 단어들을 사용한다. 이렇게 추출된 이미지와 관련된 단어들은 딥러닝 모델을 이용하여 하나의 벡터 공간에 임베딩 되도록 학습한다.
또한 보다 구체적으로, 상기 오브젝트 인식 과정(S330)은 상기 속성 추출 과정(S320)과 마찬가지로, 이미지캡션 생성부(121)가 학습되기 전에 미리 학습되는 과정으로서, Mask R-CNN 알고리즘 등과 같은 딥러닝 기반 오브젝트 인식 모델을 활용하여 입력된 이미지 내의 미리 정의된 오브젝트 집합에 해당하는 부분의 영역을 추출한다.
도 4는 상기 도 1에 있어서, 이미지캡션 생성부의 학습 방법을 설명하기 위한 흐름도이다.
도 4를 참조하면, 이미지캡션 생성부(121)는, 학습을 위해 먼저 이미지 및 문법 정보가 태깅된 이미지캡션 데이터를 입력으로 받는다(S410).
상기 이미지캡션 데이터의 경우, 상기 문법 학습 과정(S343)을 위해 학습 시작 전에 지정된 문법 태깅 도구(예 : EasySRL 등)를 이용하여 모든 정답 캡션 문장들에 대해서 미리 문법 정보를 주석한다.
또한 상기 이미지캡션 생성부(121)는, 입력된 이미지와 이미지캡션 데이터로부터 이미지의 속성 추출을 통해 이미지에 관련된 단어 정보들을 추출하여 이를 벡터 표현으로 변환하고, 벡터들의 평균(즉, 평균 벡터)을 계산한다(S420).
아울러 이미지의 오브젝트 인식을 통해 이미지에 관련된 오브젝트 영역 정보들을 추출하고, 이를 벡터 표현으로 변환하고, 벡터들의 평균(즉, 평균 벡터)을 계산한다(S430).
또한 상기 이미지캡션 생성부(121)는, 상기 이미지의 속성 추출을 통해 얻은 단어 벡터들에 대해서 이전 시간 단계에서 생성한 단어와 문법을 고려하여 현재 시간 단계에서 생성할 단어와 연관이 높은 벡터들에 대해서 단어 주의도(attention score)를 계산한다(S440).
또한 상기 이미지캡션 생성부(121)는, 상기 이미지의 오브젝트 인식을 통해 얻은 영역 벡터들에 대해서 영역 주의도를 계산한다(S450).
또한 상기 이미지캡션 생성부(121)는, 상기 생성된 단어 주의도 및 영역 주의도 값들과 이미지 속성 추출 과정을 통해 계산한 평균 벡터, 이미지 오브젝트 인식 과정을 통해 계산한 평균 벡터 값, 이전의 언어 생성 과정에서 생성한 단어, 및 이전까지 언어 생성 과정을 통해 생성했던 모든 단어들에 대한 압축된 정보(hidden state value)를 모두 고려하여 현재 시간단계에서 단어 및 단어의 문법 태그를 예측한다(S460).
또한 상기 이미지캡션 생성부(121)는, 상기 예측한 단어 및 단어의 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어와 문법 태그에 대한 손실값을 각각 계산하고(S470), 상기 손실값들을 반영하여 이미지캡션 생성 과정(S340)의 학습 파라미터들을 업데이트하게 된다.
도 5는 상기 도 1에 있어서, 온톨로지 생성부로부터 생성된 공사현장 도메인에 대한 시맨틱 온톨로지를 보인 예시도이다.
이때 본 실시예에서 상기 온톨로지 생성부(122)는 도메인에 특화된 온톨로지 정보 제공을 위해 도메인특화 시맨틱 온톨로지와 도메인-일반 단어 관계 온톨로지를 미리 생성하고 있는 것으로 가정한다.
즉, 도 5는 도메인특화 시맨틱 온톨로지를 예시한 것으로, 도메인특화 온톨로지는 도메인특화 클래스(510), 클래스에 대한 인스턴스(520), 클래스와 인스턴스 사이 관계(530), 클래스 사이 관계(540)로 구성된다.
여기서 상기 도메인특화 클래스(510)는 사용자가 목표로 하는 특화 도메인에서 인스턴스를 만들 수 있는 상위 분류들에 해당되며, 예컨대 도 5의 공사현장 도메인에서 '관리자', '작업자', '검사 기준'등이 포함될 수 있다.
상기 클래스에 대한 인스턴스(520)는 각 도메인특화 클래스(510)의 인스턴스에 해당하며, 예컨대 '관리자'클래스에 대해서 '관리자 1', '관리자2'등과 같이 생성될 수 있고, '안정 장비'클래스에 대하여 '작업복', '안전모', '안전화' 등과 같은 인스턴스가 포함될 수 있다.
상기 클래스와 인스턴스 사이 관계(530)는 상기 클래스와 클래스로부터 생성된 인스턴스 사이의 관계를 나타내는 정보로서, 통상적으로 '사례'로 정의된다.
상기 클래스 사이 관계(540)는 상기 온톨로지에 정의된 클래스 사이의 관계를 나타내는 정보로서, 예컨대 '관리자' 클래스는 '검사 기준' 클래스에 대해서 '점검하다'라는 관계를 갖는다.
도 6은 상기 도 5에 있어서, 온톨로지 생성부로부터 생성된 도메인-일반 단어 관계 온톨로지를 설명하기 위하여 보인 예시도이다.
도 6을 참조하면, 각 항목의 왼쪽은 도메인특화 인스턴스(610)(예 : 작업자, 안전모)를 나타내며, 오른쪽 항목은 일반 단어들에 대한 인스턴스(620)를 나타낸다.
여기서 상기 도메인특화 인스턴스(610)는 상기 도메인특화 온톨로지에서 정의된 인스턴스들 중 하나이다.
또한 상기 일반 단어들에 대한 인스턴스(620)는 상기 이미지캡션 생성부(121)로부터 생성되는 캡션 내 단어들에 해당된다. 즉, 일반 단어들에 대한 인스턴스(620)는 이미지캡션 생성부(121)가 학습 단계에서 사용하는 데이터셋 내의 단어 사전들에 각 단어를 포함 할 수 있다.
따라서 상기 도메인-일반 단어 관계 온톨로지(600)를 이용하여, 상기 이미지캡션 생성부(121)로부터 생성된 일반 이미지캡션 내 특정 단어들을 도메인특화 단어로 교체할 수 있다. 즉, 상기 도 2에 기재된 바와 같이 온톨로지로부터 도메인특화 정보를 추출할 때 상기 도 5에서 설명한 바와 같은 도메인특화 시맨틱 온톨로지를 이용하게 된다.
도 7은 상기 도 1에 있어서, 도메인특화 이미지캡션 생성부에서 최종 결과를 생성하는 과정을 설명하기 위한 예시도이다.
도 7을 참조하면, 도메인특화 이미지캡션 생성부(123)는, 사용자로부터 도메인특화 이미지가 주어지면(S710), 이에 대해 상기 이미지캡션 생성부(121)가 이미지캡션을 생성하게 된다(S720).
그리고 상기 도메인특화 온톨로지 생성부(122)를 통해 미리 정의된 온톨로지를 이용하여(S730) 도메인특화 이미지캡션 변환을 수행하여 도메인특화 이미지캡션을 생성한다(S740). 즉, 상기 도메인특화 이미지캡션 생성부(123)는 상기 이미지캡션 생성부(121)에서 생성된 이미지캡션 내 특정 단어들 및 도메인-일반 단어 관계 온톨로지에 매칭되는 단어들을 추출하고, 이 특정 단어들(즉, 일반 단어들)을 관계되는 도메인특화 단어로 대체하여 최종적으로 도메인특화 이미지캡션을 생성한다.
도 8은 상기 도 7에 있어서, 최종적으로 생성된 문장 형태의 도메인특화 이미지캡션들을 보인 예시도이다.
도 8을 참조하면, 예시된 도메인은 공사현장 도메인이며, 주어진 도메인특화 이미지(810)에 대해서 이미지캡션 생성부(121)가 생성한 일반 이미지캡션(820)을 출력하면, 도메인특화 이미지캡션 생성부(123)가 도메인특화 온톨로지 정보를 이용하여 특정 단어들(즉, 일반 단어들)을 관계되는 도메인특화 단어로 대체하여 최종적으로 도메인특화 이미지캡션을 생성하여 출력한다(830).
예컨대 도 8의 (a)에서 일반 단어인 'men' 이 도메인특화 단어인 workers로 대체되고, 또한 일반 단어인 'building'이 도메인특화 단어인 'distribution substation'으로 대체되어 최종적으로 도메인특화 이미지캡션이 생성되어 출력된다. 도 8의 (b) 내지 (d)에서도 일반 단어가 도메인특화 단어로 대체되어 최종적으로 도메인특화 이미지캡션이 생성되어 출력된다.
이상으로 본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 정하여져야 할 것이다. 또한 본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.
100 : 도메인특화 이미지캡션 자동 생성 장치
110 : 클라이언트 111 : 사용자 디바이스
120 : 캡션 생성기 121 : 이미지캡션 생성부
122 : 온톨로지 생성부 123 : 도메인특화 이미지캡션 생성부

Claims (24)

  1. 클라이언트로부터 제공받은 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 캡션 생성기;를 포함하며,
    상기 클라이언트는 사용자 디바이스;를 포함하고,
    상기 캡션 생성기는 상기 사용자 디바이스와 유무선 통신 방식으로 연결된 서버;를 포함하되,
    상기 이미지를 설명하는 문장 형태의 이미지캡션을 생성하기 위하여,
    상기 캡션 생성기의 이미지 캡션 생성부가,
    이미지 및 문법 정보가 태깅된 이미지캡션 데이터를 입력받아 학습하고,
    입력된 이미지와 이미지캡션 데이터로부터 이미지의 속성 추출을 통해 이미지에 관련된 단어 정보들을 추출하여 이를 벡터 표현으로 변환하고 이 벡터들의 평균을 계산하며,
    또한 이미지의 오브젝트 인식을 통해 이미지에 관련된 오브젝트 영역 정보들을 추출하여 이를 벡터 표현으로 변환하고 이 벡터들의 평균을 계산하고,
    상기 이미지의 속성 추출을 통해 얻은 단어 벡터들에 대해서 이전 시간 단계에서 생성한 단어와 문법을 고려하여 현재 시간 단계에서 생성할 단어와 연관이 높은 벡터들에 대해서 단어 주의도(attention score)를 계산하며,
    상기 이미지의 오브젝트 인식을 통해 얻은 영역 벡터들에 대해서 영역 주의도를 계산하고,
    상기 생성된 단어 주의도 및 영역 주의도 값들과 이미지 속성 추출 과정을 통해 계산한 평균 벡터, 이미지 오브젝트 인식 과정을 통해 계산한 평균 벡터 값, 이전의 언어 생성 과정에서 생성한 단어, 및 이전까지 언어 생성 과정을 통해 생성했던 모든 단어들에 대한 압축된 정보(hidden state value)를 모두 고려하여 현재 시간단계에서 단어 및 단어의 문법 태그를 예측하며,
    상기 예측한 단어 및 단어의 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어와 문법 태그에 대한 손실값을 각각 계산하고, 상기 손실값들을 반영하여 이미지캡션 생성 과정의 학습 파라미터들을 업데이트하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  2. 제 1항에 있어서, 상기 캡션 생성기는,
    이미지캡션 생성부를 통해 사용자 디바이스로부터 전달 받은 이미지를 딥러닝 알고리즘을 이용하여 이미지 내 속성과 오브젝트 정보를 찾고,
    상기 찾은 정보를 이용하여 자연어를 이용해 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  3. 제 1항에 있어서, 상기 캡션 생성기는,
    온톨로지 생성부를 통해 사용자가 목표로 하는 도메인에 대한 시맨틱 온톨로지를 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  4. 제 1항에 있어서, 상기 캡션 생성기는,
    이미지캡션 생성부와 온톨로지 생성부의 결과들을 이용하는 도메인특화 이미지캡션 생성부를 통해 상기 이미지캡션 생성부에서 생성된 캡션 중 특정된 일반 단어를 도메인특화 단어로 대체하여 도메인에 특화된 이미지캡션을 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  5. 제 1항에 있어서, 상기 캡션 생성기는,
    사용자 디바이스로부터 도메인에 특화된 이미지가 입력되면,
    이미지캡션 생성부가 상기 입력된 이미지에 대한 속성과 오브젝트 정보를 추출하고, 추출된 정보를 이용하여 문장 형태의 이미지캡션을 생성하고,
    온톨로지 생성부가 온톨로지 생성 도구를 이용하여 상기 생성된 이미지캡션의 특정 단어들과 관련된 온톨로지 정보인 도메인특화 정보를 추출하며,
    도메인특화 이미지캡션 생성부가 상기 생성된 이미지캡션과 상기 추출된 온톨로지 정보인 도메인특화 정보를 이용하여 상기 문장 형태의 이미지캡션에서 특정된 일반 단어를 도메인특화 단어로 대체하여 도메인 특화된 이미지캡션 문장을 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  6. 제 2항에 있어서, 상기 이미지 캡션 생성부는,
    이미지를 입력받으면, 속성 추출을 통해 이미지와 가장 관련된 단어들을 추출하고 추출된 각 단어들을 벡터 표현으로 변환하고,
    상기 이미지에 대한 오브젝트 인식을 통해 이미지 내의 중요 오브젝트들을 추출하여 각 오브젝트 영역들을 벡터 표현으로 변환하며,
    상기 속성 추출과 오브젝트 인식을 통해 생성된 벡터들 이용하여 상기 입력받은 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  7. 제 6항에 있어서, 상기 이미지 캡션 생성부는,
    상기 이미지에 대한 오브젝트 인식을 위하여, 딥러닝 기반 오브젝트 인식 모델을 활용하여 미리 학습하고,
    입력된 이미지 내의 미리 정의된 오브젝트 집합에 해당하는 부분의 오브젝트 영역을 추출하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  8. 삭제
  9. 제 6항에 있어서, 상기 이미지 캡션 생성부는,
    상기 이미지에 대한 속성 추출을 위하여, 딥러닝 알고리즘 기반의 이미지-텍스트 임베딩 모델을 이용하여 미리 학습하고,
    상기 이미지-텍스트 임베딩 모델은, 복수의 이미지와 각 이미지와 관련된 단어들을 하나의 벡터 공간에 맵핑하여, 새로운 이미지가 입력되었을 때, 새로운 이미지와 관련된 단어들을 출력하거나 추출해주는 모델이며, 각 이미지에 관련된 단어들은 이미지캡션 데이터베이스를 이용하여 미리 추출하여 학습에 이용하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  10. 제 6항에 있어서, 상기 문장 형태의 이미지캡션을 생성하기 위하여,
    상기 이미지 캡션 생성부는,
    속성 주의 과정, 오브젝트 주의 과정, 문법 학습 과정, 및 언어 생성 과정을 수행하며, 이 과정들은 딥러닝 알고리즘을 이용해 학습이 이루어지고, 또한
    RNN(Recurrent neural network) 기반으로 문장을 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  11. 제 10항에 있어서,
    상기 속성 주의 과정은, 이미지의 속성 추출을 통해 생성된 벡터들에 대해 현재 시간 단계에서 상기 언어 생성 과정에서 생성할 단어와 관련성이 높은 단어 순서로 단어 주의도(attention score)를 부여하며,
    상기 오브젝트 주의 과정은, 이미지의 오브젝트 인식을 통해 생성된 오브젝트 영역들에 대해서 현재 시간 단계에서 상기 언어 생성 과정에서 생성할 단어와 관련성이 높은 영역 순서로 영역 주의도(attention score)를 부여하며,
    상기 단어 주의도 및 영역 주의도는 0에서 1사이의 값을 가지며, 현재 시간 단계에서 생성된 단어와 관련성이 높을수록 1에 가까운 값을 부여받는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  12. 제 10항에 있어서,
    상기 문법 학습 과정과 언어 생성 과정은, 하나의 딥러닝 모델로 단어 주의도 및 영역 주의도 값들과 상기 속성 주의 과정에서 생성된 벡터들의 평균과 상기 오브젝트 주의 과정에서 생성된 벡터들의 평균값들을 사용하여 각 시간 단계마다 캡션을 위한 단어와 이에 대한 문법 태그를 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치.
  13. 클라이언트가 캡션을 생성할 이미지를 캡션 생성기에 제공하는 단계; 및
    캡션 생성기가 상기 클라이언트로부터 제공받은 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 단계;를 포함하며,
    상기 클라이언트는 사용자 디바이스;를 포함하고,
    상기 캡션 생성기는 상기 사용자 디바이스와 유무선 통신 방식으로 연결된 서버;를 포함하되,
    상기 이미지를 설명하는 문장 형태의 이미지캡션을 생성하기 위하여,
    상기 캡션 생성기의 이미지 캡션 생성부가,
    이미지 및 문법 정보가 태깅된 이미지캡션 데이터를 입력받아 학습하고,
    입력된 이미지와 이미지캡션 데이터로부터 이미지의 속성 추출을 통해 이미지에 관련된 단어 정보들을 추출하여 이를 벡터 표현으로 변환하고 이 벡터들의 평균을 계산하며,
    또한 이미지의 오브젝트 인식을 통해 이미지에 관련된 오브젝트 영역 정보들을 추출하여 이를 벡터 표현으로 변환하고 이 벡터들의 평균을 계산하고,
    상기 이미지의 속성 추출을 통해 얻은 단어 벡터들에 대해서 이전 시간 단계에서 생성한 단어와 문법을 고려하여 현재 시간 단계에서 생성할 단어와 연관이 높은 벡터들에 대해서 단어 주의도(attention score)를 계산하며,
    상기 이미지의 오브젝트 인식을 통해 얻은 영역 벡터들에 대해서 영역 주의도를 계산하고,
    상기 생성된 단어 주의도 및 영역 주의도 값들과 이미지 속성 추출 과정을 통해 계산한 평균 벡터, 이미지 오브젝트 인식 과정을 통해 계산한 평균 벡터 값, 이전의 언어 생성 과정에서 생성한 단어, 및 이전까지 언어 생성 과정을 통해 생성했던 모든 단어들에 대한 압축된 정보(hidden state value)를 모두 고려하여 현재 시간단계에서 단어 및 단어의 문법 태그를 예측하며,
    상기 예측한 단어 및 단어의 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어와 문법 태그에 대한 손실값을 각각 계산하고, 상기 손실값들을 반영하여 이미지캡션 생성 과정의 학습 파라미터들을 업데이트하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
  14. 제 13항에 있어서, 상기 문장 형태의 이미지캡션을 생성하기 위하여,
    상기 캡션 생성기는,
    이미지캡션 생성부를 통해 사용자 디바이스로부터 전달 받은 이미지를 딥러닝 알고리즘을 이용하여 이미지 내 속성과 오브젝트 정보를 찾고,
    상기 찾은 정보를 이용하여 자연어를 이용해 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
  15. 제 13항에 있어서, 상기 문장 형태의 이미지캡션을 생성하기 위하여,
    상기 캡션 생성기는,
    온톨로지 생성부를 통해 사용자가 목표로 하는 도메인에 대한 시맨틱 온톨로지를 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
  16. 제 13항에 있어서, 상기 문장 형태의 이미지캡션을 생성하기 위하여,
    상기 캡션 생성기는,
    이미지캡션 생성부와 온톨로지 생성부의 결과들을 이용하는 도메인특화 이미지캡션 생성부를 통해 상기 이미지캡션 생성부에서 생성된 캡션 중 특정된 일반 단어를 도메인특화 단어로 대체하여 도메인에 특화된 이미지캡션을 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
  17. 제 13항에 있어서,
    상기 사용자 디바이스로부터 도메인에 특화된 이미지가 입력되면,
    상기 캡션 생성기는,
    이미지캡션 생성부가 상기 입력된 이미지에 대한 속성과 오브젝트 정보를 추출하고, 추출된 정보를 이용하여 문장 형태의 이미지캡션을 생성하고,
    온톨로지 생성부가 온톨로지 생성 도구를 이용하여 상기 생성된 이미지캡션의 특정 단어들과 관련된 온톨로지 정보인 도메인특화 정보를 추출하며,
    도메인특화 이미지캡션 생성부가 상기 생성된 이미지캡션과 상기 추출된 온톨로지 정보인 도메인특화 정보를 이용하여 상기 문장 형태의 이미지캡션에서 특정된 일반 단어를 도메인특화 단어로 대체하여 도메인 특화된 이미지캡션 문장을 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
  18. 제 14항에 있어서,
    상기 사용자 디바이스로부터 도메인에 특화된 이미지가 입력되면,
    상기 이미지 캡션 생성부는,
    속성 추출을 통해 이미지와 가장 관련된 단어들을 추출하고 추출된 각 단어들을 벡터 표현으로 변환하고,
    상기 이미지에 대한 오브젝트 인식을 통해 이미지 내의 중요 오브젝트들을 추출하여 각 오브젝트 영역들을 벡터 표현으로 변환하며,
    상기 속성 추출과 오브젝트 인식을 통해 생성된 벡터들 이용하여 상기 입력받은 이미지를 설명하는 문장 형태의 이미지캡션을 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
  19. 제 18항에 있어서,
    상기 이미지를 설명하는 문장 형태의 이미지캡션을 생성하기 위하여,
    상기 이미지 캡션 생성부는,
    상기 이미지에 대한 오브젝트 인식을 위하여, 딥러닝 기반 오브젝트 인식 모델을 활용하여 미리 학습하고,
    입력된 이미지 내의 미리 정의된 오브젝트 집합에 해당하는 부분의 오브젝트 영역을 추출하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
  20. 삭제
  21. 제 18항에 있어서, 상기 이미지에 대한 속성 추출을 위하여,
    상기 이미지 캡션 생성부는, 딥러닝 알고리즘 기반의 이미지-텍스트 임베딩 모델을 이용하여 미리 학습하고,
    상기 이미지-텍스트 임베딩 모델은, 복수의 이미지와 각 이미지와 관련된 단어들을 하나의 벡터 공간에 맵핑하여, 새로운 이미지가 입력되었을 때, 새로운 이미지와 관련된 단어들을 출력하거나 추출해주는 모델이며, 각 이미지에 관련된 단어들은 이미지캡션 데이터베이스를 이용하여 미리 추출하여 학습에 이용하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
  22. 제 18항에 있어서, 상기 문장 형태의 이미지캡션을 생성하기 위하여,
    상기 이미지 캡션 생성부는,
    속성 주의 과정, 오브젝트 주의 과정, 문법 학습 과정, 및 언어 생성 과정을 수행하며, 이 과정들은 딥러닝 알고리즘을 이용해 학습이 이루어지고, 또한
    RNN(Recurrent neural network) 기반으로 문장을 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
  23. 제 22항에 있어서,
    상기 속성 주의 과정은, 이미지의 속성 추출을 통해 생성된 벡터들에 대해 현재 시간 단계에서 상기 언어 생성 과정에서 생성할 단어와 관련성이 높은 단어 순서로 단어 주의도(attention score)를 부여하며,
    상기 오브젝트 주의 과정은, 이미지의 오브젝트 인식을 통해 생성된 오브젝트 영역들에 대해서 현재 시간 단계에서 상기 언어 생성 과정에서 생성할 단어와 관련성이 높은 영역 순서로 영역 주의도(attention score)를 부여하며,
    상기 단어 주의도 및 영역 주의도는 0에서 1사이의 값을 가지며, 현재 시간 단계에서 생성된 단어와 관련성이 높을수록 1에 가까운 값을 부여받는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
  24. 제 22항에 있어서,
    상기 문법 학습 과정과 언어 생성 과정은, 하나의 딥러닝 모델로 단어 주의도 및 영역 주의도 값들과 상기 속성 주의 과정에서 생성된 벡터들의 평균과 상기 오브젝트 주의 과정에서 생성된 벡터들의 평균값들을 사용하여 각 시간 단계마다 캡션을 위한 단어와 이에 대한 문법 태그를 생성하는 것을 특징으로 하는 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 방법.
KR1020200049189A 2020-04-23 2020-04-23 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법 KR102411301B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200049189A KR102411301B1 (ko) 2020-04-23 2020-04-23 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법
PCT/KR2020/019203 WO2021215620A1 (ko) 2020-04-23 2020-12-28 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법
US17/920,067 US20230206661A1 (en) 2020-04-23 2020-12-28 Device and method for automatically generating domain-specific image caption by using semantic ontology

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200049189A KR102411301B1 (ko) 2020-04-23 2020-04-23 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20210130980A KR20210130980A (ko) 2021-11-02
KR102411301B1 true KR102411301B1 (ko) 2022-06-22

Family

ID=78269406

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200049189A KR102411301B1 (ko) 2020-04-23 2020-04-23 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법

Country Status (3)

Country Link
US (1) US20230206661A1 (ko)
KR (1) KR102411301B1 (ko)
WO (1) WO2021215620A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615567B2 (en) * 2020-11-18 2023-03-28 Adobe Inc. Image segmentation using text embedding
KR20240023905A (ko) * 2022-08-16 2024-02-23 주식회사 맨드언맨드 편집된 인공 신경망을 이용한 데이터 처리 방법
KR102638529B1 (ko) 2023-08-17 2024-02-20 주식회사 파워이십일 전력 계통 어플리케이션과의 인터페이스를 위한 온톨로지데이터 관리 시스템 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101996371B1 (ko) * 2018-02-22 2019-07-03 주식회사 인공지능연구원 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015066891A1 (en) * 2013-11-08 2015-05-14 Google Inc. Systems and methods for extracting and generating images for display content
US11222044B2 (en) * 2014-05-16 2022-01-11 Microsoft Technology Licensing, Llc Natural language image search
KR101602342B1 (ko) * 2014-07-10 2016-03-11 네이버 주식회사 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
KR102471754B1 (ko) * 2017-12-28 2022-11-28 주식회사 엔씨소프트 이미지 생성 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101996371B1 (ko) * 2018-02-22 2019-07-03 주식회사 인공지능연구원 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램

Also Published As

Publication number Publication date
WO2021215620A1 (ko) 2021-10-28
US20230206661A1 (en) 2023-06-29
KR20210130980A (ko) 2021-11-02

Similar Documents

Publication Publication Date Title
JP7420842B2 (ja) 自然言語理解(nlu)フレームワークにおける予測的類似性スコアリングサブシステム
KR102411301B1 (ko) 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법
US20220058343A1 (en) Written-modality prosody subsystem in a natural language understanding (nlu) framework
Niu et al. Multi-modal multi-scale deep learning for large-scale image annotation
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
US11720756B2 (en) Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework
CN112417885A (zh) 基于人工智能的答案生成方法、装置、计算机设备及介质
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
CN110096599B (zh) 知识图谱的生成方法及装置
JP4170296B2 (ja) 事例分類装置および方法
US20200234009A1 (en) Word semantic relation estimation device and word semantic relation estimation method
US20220414463A1 (en) Automated troubleshooter
JP2019144706A (ja) 関係性推定モデル学習装置、方法、及びプログラム
Hernault et al. A sequential model for discourse segmentation
CN110659392B (zh) 检索方法及装置、存储介质
WO2021244099A1 (zh) 语音编辑方法、电子设备及计算机可读存储介质
CN110309252B (zh) 一种自然语言处理方法及装置
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN117076608A (zh) 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置
CN115904482A (zh) 接口文档生成方法、装置、设备及存储介质
CN116167382A (zh) 意图事件提取方法及装置、电子设备、存储介质
CN115357720A (zh) 基于bert的多任务新闻分类方法及装置
CN115098687A (zh) 面向电力sdh光传输系统调度运行的告警排查方法及装置
Shafi et al. [WiP] Web Services Classification Using an Improved Text Mining Technique

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right