KR102622958B1 - System and method for automatic generation of image caption - Google Patents
System and method for automatic generation of image caption Download PDFInfo
- Publication number
- KR102622958B1 KR102622958B1 KR1020190023268A KR20190023268A KR102622958B1 KR 102622958 B1 KR102622958 B1 KR 102622958B1 KR 1020190023268 A KR1020190023268 A KR 1020190023268A KR 20190023268 A KR20190023268 A KR 20190023268A KR 102622958 B1 KR102622958 B1 KR 102622958B1
- Authority
- KR
- South Korea
- Prior art keywords
- caption
- image
- model
- tuple
- word
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 34
- 239000000284 extract Substances 0.000 claims description 29
- 238000012800 visualization Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 20
- 241000282326 Felis catus Species 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
- H04N21/8133—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법에 관한 것이다.
본 발명의 실시 예에 따른 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 시스템에 있어서. 상기 캡션을 생성하기 위한 이미지를 제공하는 클라이언트와, 상기 클라이언트로부터 제공받은 이미지를 분석하여 상기 이미지를 설명하는 캡션을 생성하고, 상기 생성한 캡션 및 상기 캡션을 생성한 근거를 상기 클라이언트로 전송하는 캡션 생성기를 포함한다.The present invention relates to an automatic image caption generation system and method that generates captions by extracting attribute information and object information in images using deep learning, and reconstructs the generated captions by predicting relationships between object information.
In an automatic caption generation system for automatically generating captions describing images for images according to an embodiment of the present invention. A client that provides an image for generating the caption, analyzes an image provided by the client to generate a caption describing the image, and transmits the generated caption and the basis for generating the caption to the client. Includes generator.
Description
본 발명은 이미지 캡션 자동 생성 시스템 및 방법에 관한 것으로, 보다 자세하게는 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법에 관한 것이다.The present invention relates to an automatic image caption generation system and method. More specifically, the present invention relates to a system and method for automatically generating image captions. More specifically, the present invention relates to a caption generated by extracting attribute information and object information in an image using deep learning, and a caption generated by predicting the relationship between object information. It relates to a system and method for automatically generating image captions for restructuring.
이미지 캡셔닝은 제공되는 이미지에 대해 그 이미지를 설명하는 자연어 문장을 생성하는 것으로, 최근에는 인공지능 기술의 발전으로 기계를 이용하여 자동으로 캡션을 생성하는 기술이 개발되고 있다.Image captioning involves generating natural language sentences that describe a provided image. Recently, with the advancement of artificial intelligence technology, technology to automatically generate captions using machines has been developed.
이와 같이, 기계를 이용하여 자동으로 캡션을 생성하는 기술은 기존의 존재하는 많은 이미지와 각 이미지에 달린 라벨(이미지를 설명하는 한 단어) 정보를 이용하여 라벨이 같은 이미지를 검색하거나, 유사한 이미지들의 라벨들을 하나의 이미지에 할당하여 이미지에 대한 캡션을 생성하였다.In this way, the technology to automatically generate captions using a machine searches for images with the same label or uses the information on many existing images and the label (one word that describes the image) attached to each image. Labels were assigned to an image to create a caption for the image.
이미지 캡셔닝은 제공되는 이미지에 대해 그 이미지를 설명하는 캡션을 자연어 문장으로 생성하는 것이다. 최근에는 인공지능 기술의 발전으로 기계를 이용하여 자동으로 캡션을 생성하는 기술이 개발되고 있다.Image captioning is the process of creating a caption that describes a provided image using natural language sentences. Recently, with the advancement of artificial intelligence technology, technology to automatically generate captions using machines is being developed.
기계를 이용하여 자동으로 캡션을 생성하는 것은 기존에 존재하는 많은 이미지와 각 이미지에 대한 라벨(이미지를 설명하는 한 단어) 정보를 이용하여 수행될 수 있다. 즉, 라벨이 같은 이미지를 검색하거나, 유사한 이미지들의 라벨들을 하나의 이미지에 할당함으로써 이미지에 대한 캡션을 생성할 수 있게 되는 것이다.Automatically generating captions using a machine can be done using many existing images and the label (one word that describes the image) information for each image. In other words, it is possible to create a caption for an image by searching for images with the same label or assigning labels from similar images to one image.
그러나, 이러한 방법의 경우 새로운 이미지에 대해 저장되어 있는 이미지 및 라벨 데이터만을 이용하여 캡션을 생성하므로, 자연어 문장으로 된 캡션을 생성하기 어렵고, 생성하더라고 문장의 질이 떨어지는 문제가 있다.However, in this method, captions are generated using only the image and label data stored for the new image, so it is difficult to generate captions in natural language sentences, and even if generated, the quality of the sentences is poor.
본 발명은 앞에서 설명한 문제점을 해결하기 위한 것으로, 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법을 제공하는 것을 목적으로 한다.The present invention is intended to solve the problems described above, and is an image caption that generates captions by extracting attribute information and object information in images using deep learning, and reconstructs the generated captions by predicting relationships between object information. The purpose is to provide an automatic generation system and method.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.In addition to the technical problems of the present invention mentioned above, other features and advantages of the present invention are described below, or can be clearly understood by those skilled in the art from such description and description.
앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 시스템은 캡션을 생성하기 위한 이미지를 제공하는 클라이언트와, 클라이언트로부터 제공받은 이미지를 분석하여 이미지를 설명하는 캡션을 생성하고, 생성한 캡션 및 캡션을 생성한 근거를 클라이언트로 전송하는 캡션 생성기를 포함할 수 있다.An automatic caption generation system for automatically generating a caption describing an image according to an embodiment of the present invention to achieve the purpose described above includes a client providing an image for generating a caption, and an image provided by the client. It may include a caption generator that analyzes the image and generates a caption that describes the image, and transmits the generated caption and the basis for generating the caption to the client.
한편, 앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 방법은 캡션 생성 모듈에서 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 속성 정보 및 오브젝트 정보를 이용하여 캡션을 생성하는 단계와, 관계 생성 모듈에서 이미지 내 오브젝트들 사이의 관계를 예측하고, 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하고, 설명 생성 모듈에서 생성한 캡션 및 투플 집합을 이용하여 캡션을 재구조화여 확장된 캡션을 생성하고, 확장된 캡션 및 투플 집합에 대한 그래프를 시각화할 수 있다.Meanwhile, the automatic caption generation method for automatically generating a caption describing an image according to an embodiment of the present invention to achieve the purpose described above uses deep learning in the caption generation module to generate attribute information and objects within the image. A step of extracting information and generating a caption using attribute information and object information, predicting relationships between objects in the image in the relationship creation module, and creating a tuple set that structures the predicted relationships in the form of a tuple. You can create extended captions by restructuring the captions using the captions and tuple sets created in the description generation module, and visualize the graph for the extended captions and tuple sets.
본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템 및 방법은 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 반영하여 캡션을 생성하므로 이미지에 대한 캡션 생성의 성능을 향상시킬 수 있다.The automatic image caption generation system and method according to an embodiment of the present invention uses deep learning to generate captions by reflecting attribute information and object information in the image, thereby improving the performance of caption generation for images.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.In addition, other features and advantages of the present invention may be newly understood through embodiments of the present invention.
도 1은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템의 구성을 나타내는 도면이다.
도 2는 본 발명의 실시 예에 따른 캡션 생성기의 구성을 나타내는 도면이다.
도 3은 본 발명의 실시 예에 따른 캡션 생성 모듈의 구성을 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 관계 생성 모듈의 구성을 나타내는 도면이다.
도 5는 본 발명의 실시 예에 따른 설명 생성 모듈의 구성을 나타내는 도면이다.
도 6은 본 발명의 실시 예에 따른 이미지에 대한 캡션 생성을 나타내는 도면이다.
도 7은 본 발명의 실시 예에 따른 확장된 캡션 생성을 나타내는 도면이다.
도 8은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 방법을 나타내는 도면이다.
도 9는 본 발명의 실시 예에 따른 캡션을 생성하는 방법을 나타내는 도면이다.
도 10은 본 발명의 실시 예에 따른 확장된 캡션을 생성하는 방법을 나타내는 도면이다. 1 is a diagram showing the configuration of an automatic image caption generation system according to an embodiment of the present invention.
Figure 2 is a diagram showing the configuration of a caption generator according to an embodiment of the present invention.
Figure 3 is a diagram showing the configuration of a caption creation module according to an embodiment of the present invention.
Figure 4 is a diagram showing the configuration of a relationship creation module according to an embodiment of the present invention.
Figure 5 is a diagram showing the configuration of a description generation module according to an embodiment of the present invention.
Figure 6 is a diagram showing caption creation for an image according to an embodiment of the present invention.
Figure 7 is a diagram showing extended caption creation according to an embodiment of the present invention.
Figure 8 is a diagram showing a method for automatically generating image captions according to an embodiment of the present invention.
Figure 9 is a diagram showing a method for generating captions according to an embodiment of the present invention.
Figure 10 is a diagram showing a method for generating extended captions according to an embodiment of the present invention.
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.In order to clearly explain the present invention, parts that are not relevant to the description are omitted, and identical or similar components are assigned the same reference numerals throughout the specification.
여기서 사용되는 전문 용어는 단지 특정 실시 예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분의 존재나 부가를 제외시키는 것은 아니다.The terminology used herein is only intended to refer to specific embodiments and is not intended to limit the invention. As used herein, singular forms include plural forms unless phrases clearly indicate the contrary. As used in the specification, the meaning of "comprising" refers to specifying a particular characteristic, area, integer, step, operation, element and/or ingredient, and the presence or presence of another characteristic, area, integer, step, operation, element and/or ingredient. This does not exclude addition.
다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련 기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.Although not defined differently, all terms including technical and scientific terms used herein have the same meaning as those generally understood by those skilled in the art in the technical field to which the present invention pertains. Terms defined in commonly used dictionaries are further interpreted as having meanings consistent with related technical literature and currently disclosed content, and are not interpreted in ideal or very formal meanings unless defined.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.Hereinafter, with reference to the attached drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily implement the present invention. However, the present invention may be implemented in many different forms and is not limited to the embodiments described herein.
도 1은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템의 구성을 나타내는 도면이다.1 is a diagram showing the configuration of an automatic image caption generation system according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템(1000)은 클라이언트(100), 캡션 생성기(200)를 포함할 수 있다.Referring to FIG. 1, the automatic image
클라이언트(100)는 캡션을 생성하기 위한 이미지를 제공할 수 있다. 클라이언트(100)는 스마트폰이나 태플릿 PC와 같은 사용자 디바이스를 통해 캡션 생성기(200)로 이미지를 제공할 수 있다.The
또한, 캡션 생성기(200)는 클라이언트(100)로부터 제공받은 이미지를 분석하여 해당 이미지를 설명하는 캡션을 생성하고, 생성한 캡션 및 캡션을 생성한 근거를 클라이언트(100)로 전송할 수 있다.Additionally, the
여기서, 캡션 생성기(200)는 딥 러닝을 통해 이미지를 분석할 수 있다. 구체적으로, 캡션 생성기(200)는 이미지 및 이미지에 대한 정답 캡션을 학습하고 있을 수 있다.Here, the
캡션 생성기(200)는 학습된 이미지 및 이미지에 대한 정답 캡션들을 이용하여 새로운 이미지에 대한 캡션을 생성할 수 있다. 캡션 생성기(200)는 학습된 이미지 및 이미지에 대한 정답 캡션들을 이용하여 클라이언트(100)로부터 제공된 이미지에 대해 캡션을 생성할 수 있다. 여기서, 정답 캡션은 사용자가 이미지에 대해 임의로 설정한 5개 이상의 구절을 포함하는 문장일 수 있다. 또한, 캡션 생성기(200)는 제공된 이미지의 오브젝트를 추출하여 오브젝트들간의 관계를 예측하고, 예측된 관계들을 생성된 캡션에 적용하여 줌으로써 더 확장된 캡션을 생성할 수 있다.The
캡션 생성기(200)는 확장된 캡션 및 캡션이 생성된 근거를 클라이언트(100)로 전달할 수 있고, 클라이언트(100)는 캡션 생성기(200)에서 전달된 이미지에 대한 캡션 및 캡션이 생성된 근거를 통해 딥 러닝의 대한 결과를 해석할 수 있다. 여기서, 클라이언트(100) 및 캡션 생성기(200)는 유선 또는 무선으로 연결될 수 있다.The
도 2는 본 발명의 실시 예에 따른 캡션 생성기의 구성을 나타내는 도면이다.Figure 2 is a diagram showing the configuration of a caption generator according to an embodiment of the present invention.
도 2를 참조하면, 본 발명의 실시 예에 따른 캡션 생성기(200)는 캡션 생성 모듈(210), 관계 생성 모듈(220) 및 설명 생성 모듈(230)을 포함할 수 있다.Referring to FIG. 2, the
캡션 생성 모듈(210)은 이미지 및 이미지에 대한 정답 캡션을 학습하고 있으며, 학습된 이미지 및 이미지에 대한 정답 캡션을 이용하여 제공된 이미지의 캡션을 생성할 수 있다. 캡션 생성 모듈(210)은 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 추출한 속성 정보 및 오브젝트 정보를 이용하여 캡션을 생성할 수 있다. 여기서, 속성 정보는 이미지와 관련된 단어들일 수 있고, 오브젝트 정보는 제공받은 이미지의 핵심 대상일 수 있다. 일 예로, 소파 앞의 개를 포함하고 있는 이미지의 경우, 속성 정보는 '개', '소퍄'일 수 있고, 오브젝트 정보는 이미지 내의 '개', '소파'일 수 있다. The
관계 생성 모듈(220)은 이미지 내 오브젝트들 사이의 관계를 예측하고, 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성할 수 있다. 여기서, 투플 형태는 원소들을 열거한 것으로, 원소들을 괄호 '( )'안에 쉼표 ','로 구분하여 나열하는 것일 수 있다. 일 예로, 소파 앞의 개를 포함하고 있는 이미지가 제공된 경우, 관계 생성 모듈(220)은 오브젝트인 개와 소파 사이의 관계를 예측할 수 있다. 즉, 관계 생성 모듈(220)은 개가 소파 앞의 있음을 예측할 수 있고, 예측된 관계를 (소파, 앞의, 개)로 구조화할 수 있다. 이때. '(소파, 앞의, 개)'는 투플 집합일 수 있다.The
설명 생성 모듈(230)은 캡션 생성 모듈(210)에서 생성한 캡션 및 관계 생성 모듈(220)에서 생성한 투플 집합을 이용하여 캡션을 재구조화여 확장된 캡션을 생성할 수 있다. 즉, 설명 생성 모듈(230)은 캡션 생성 모듈(210)에서 생성한 캡션에 관계 생성 모듈(220)에서 예측한 오브젝트들 사이의 관계를 반영하여 더 확장된 캡션을 생성할 수 있다. 또한, 설명 생성 모듈(230)은 확장된 캡션 및 캡션이 생성된 근거인 투플 집합에 대한 그래프를 시각화하여 클라이언트(100)로 전송할 수 있다.The
도 3은 본 발명의 실시 예에 따른 캡션 생성 모듈의 구성을 나타내는 도면이다.Figure 3 is a diagram showing the configuration of a caption creation module according to an embodiment of the present invention.
도 3을 참조하면, 본 발명의 실시 예에 따른 캡션 생성 모듈(210)은 속성 추출 모델(212), 오브젝트 인식 모델(214) 및 이미지 캡션 모델(216)을 포함할 수 있다.Referring to FIG. 3, the
속성 추출 모델(212)은 제공받은 이미지의 속성 정보를 추출하고, 속성 정보를 투플 형태로 변환할 수 있다. 여기서, 속성 추출 모델(212)은 이미지 및 이미지에 대한 캡션이 학습되어 있을 수 있다. 즉, 속성 추출 모델(212)에는 많은 이미지와 각 이미지와 관련된 단어들이 하나의 벡터 공간에 맵핑되어 저장되어 있을 수 있다. 이에 따라, 속성 추출 모델(212)은 저장된 정보들을 이용하여 새로운 이미지와 관련된 단어들을 출력하고, 출력한 단어들을 학습에 이용할 수 있다.The
또한, 속성 추출 모델(212)은 각 이미지에 대한 캡션들로부터 캡션 내 동사(또는 동명사 및 분사) 형태의 단어들과 3번 이상 동일하게 존재하는 명사 형태의 단어들을 이용하여 각 이미지에 대한 캡션들로부터 단어들을 추출할 수 있다. 속성 추출 모델(212)은 해당 이미지 및 추출된 단어들을 딥 러닝 모델을 이용하여 하나의 벡터 공간에 임베딩 되도록 학습할 수 있다.In addition, the
이에 따라, 속성 추출 모델(212)은 학습되어 있는 이미지 및 이미지에 대한 캡션 데이터를 이용하여 제공받은 이미지와 가장 관련된 단어들을 추출할 수 있다.Accordingly, the
오브젝트 인식 모델(214)은 이미지 내 중요 오브젝트를 추출하고, 추출된 오브젝트를 포함하는 오브젝트 영역을 투플 형태로 변환할 수 있다. 오브젝트 인식 모델(214)은 Mask R-CNN 알고리즘 등과 같은 딥 러닝 기반 오브젝트 인식 모델을 활용하여 제공된 이미지 내의 미리 정의된 오브젝트 영역에 해당하는 영역들을 제공된 이미지의 오브젝트 영역으로써, 추출할 수 있다.The
이미지 캡션 모델(216)은 속성 추출 모델(212)에서 추출된 각 단어들 및 오브젝트 인식 모델(214)에서 추출된 오브젝트 영역들을 이용하여 제공된 이미지의 캡션을 생성할 수 있다.The
이미지 캡션 모델(216)은 딥 러닝 알고리즘으로 수행되며, RNN(Recurrent neural network)을 기반으로 수행될 수 있다. 이에 따라, 이미지 캡션 모델(216)은 이미지 내 오브젝트들 사이의 관계를 시계열적으로 예측할 수 있다.The
본 발명의 실시 예에 따른 이미지 캡션 모델(216)은 속성 주의 모델(216a), 오브젝트 주의 모델(216b), 문법 학습 모델(216c) 및 언어 생성 모델(216d)을 포함할 수 있다.The
속성 주의 모델(216a)은 속성 추출 모델(212)에서 추출된 단어들에 대해 단어 주의도(attention score)를 부여할 수 있다. 속성 주의 모델(216a)은 현재 시간에 언어 생성 모델(216d)에서 생성한 단어 태그와 관련성이 높은 단어 순서로 단어 주의도를 부여할 수 있다. 여기서, 단어 주의도는 0 내지 1 사이의 값이며, 단어 태그와 관련성이 높을수록 1에 인접할 수 있다.The
오브젝트 주의 모델(216b)은 오브젝트 인식 모델(214)에서 추출한 오브젝트의 영역들에 대해 영역 주의도를 부여할 수 있다. 오브젝트 주의 모델(216b)은 현재 시간에 언어 생성 모델(216d)에서 생성한 단어 태그와 관련성이 높은 단어 순서로 영역 주의도를 부여할 수 있다. 여기서, 영역 주의도는 0 내지 1 사이의 값이며, 단어 태그와 관련성이 높을수록 1에 인접할 수 있다.The
문법 학습 모델(216c)은 이미지 및 이미지의 캡션에 대한 문장의 문법을 학습할 수 있다. 문법 학습 모델(216c)은 이미지의 정답 캡션 문장에 대해 EasySRL과 같은 문법 태깅 도구를 이용하여 문장 내 각 단어들에 대해 태깅하고, 이미지의 정답 캡션 문장의 문법을 학습할 수 있다. 문법 학습 모델(216c)이 캡션 문장의 문법을 학습함으로써, 제공된 이미지에 대해 캡션을 생성할 때 문법적인 측면이 고려될 수 있도록 할 수 있다. The
언어 생성 모델(216d)은 속성 추출 모델(216a)에서 추출된 단어들, 오브젝트 인식 모델(216b)에서 추출된 오브젝트 영역들, 속성 주의 모델(216c)에서 생성된 단어 주의도 및 오브젝트 주의 모델(216d)에서 생성된 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 생성할 수 있다.The
언어 생성 모델(216d)은 단어 주의도 값, 영역 주의도 값, 속성 추출 모젤(212)에서 투플 형태로 변환한 단어들의 평균 벡터, 오브젝트 인식 모델(214)에서 투플 형태로 변환한 오브젝트 영역들의 평균 벡터, 언어 생성 모델(216d)에서 이전 시간에 생성한 단어 및 언어 생성 모델(216d)이 생성한 모든 단어들에 대한 압축된 정보를 모두 고려하여 현재 시간에서 단어 태그 및 문법 태그를 예측할 수 있다. 언어 생성 모델(216d)은 예측한 단어 태그 및 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어 태그 및 문법 태그에 대한 손실값을 각각 계산할 수 있다. 언어 생성 모델(216d)은 단어 태그 및 문법 태그에 대한 손실값들을 반영하여 캡션 생성 모듈(210)의 학습 파라미터들을 업데이트할 수 있다.The
이에 따라, 언어 생성 모델(216d)은 단어 태그 및 문법 태그를 이용하여 제공된 이미지에 대해 문법이 고려된 캡션 문장을 생성할 수 있다.Accordingly, the
도 4는 본 발명의 실시 예에 따른 관계 생성 모듈의 구성을 나타내는 도면이다.Figure 4 is a diagram showing the configuration of a relationship creation module according to an embodiment of the present invention.
도 4를 참조하면, 본 발명의 실시 예에 따른 관계 생성 모듈(220)은 오브젝트 추출 모델(222), 관계 예측 모델(224) 및 관계 그래프 생성 모델(226)을 포함할 수 있다.Referring to FIG. 4, the
오브젝트 인식 모델(222)은 제공된 이미지 내 중요한 오브젝트 영역들을 추출할 수 있다. 오브젝트 인식 모델(222)은 제공된 이미지 내 중요한 오브젝트들을 추출하고, 추출한 오브젝트들을 포함하는 오브젝트 영역들을 추출할 수 있다. The
관계 예측 모델(224)은 추출된 오브젝트 영역들간의 관계를 예측하고, 예측한 오브젝트 영역들간의 관계를 투플 형태로 구조화할 수 있다. 여기서, 관계 예측 모델(224)은 예측한 오브젝트 영역들간의 관계를 (제1명사, 서술어, 제2명사)의 형태로 구조화할 수 있다.The
관계 그래프 생성 모델(226)은 생성된 투플 집합에 대해 하나의 그래프를 생성할 수 있다. 관계 그래프 생성 모델(226)은 투플 집합들에 대해 제1명사로부터 서술어로 화살표를 표시하고, 서술어로부터 제2명사로 화살표를 표시하는 등의 그래프를 생성할 수 있다.The relationship
도 5는 본 발명의 실시 예에 따른 설명 생성 모듈의 구성을 나타내는 도면이다.Figure 5 is a diagram showing the configuration of a description generation module according to an embodiment of the present invention.
도 5를 참조하면, 본 발명의 실시 예에 따른 설명 생성 모듈(230)은 문장 재구조화 모델(232) 및 시각화 모델(234)을 포함할 수 있다.Referring to FIG. 5, the
문장 재구조화 모델(232)은 캡션 생성 모듈(210)에서 생성된 캡션 및 관계 생성 모듈(220)에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 생성된 캡션을 확장시킬 수 있다. 즉, 문장 재구조화 모델(232)은 캡션 생성 모듈(210)에서 생성한 캡션에 관계 생성 모듈(220)에서 생성된 투플 집합을 반영하여 캡션을 더 확장시킬 수 있다.The
문장 재구조화 모델(232)은 관계 생성 모듈(220)에서 생성된 투플 집합들 중에서 캡션 생성 모듈(210)에서 생성된 캡션에 포함되는 투플 집합들을 제거할 수 있다. 여기서, 투플 집합을 제거하는 것은 투플 집합 내 제1명사, 제2명사, 서술어가 캡션 생성 모듈(210)에서 생성된 캡션에 모두 포함되면 중복 투플 집합으로 판단하여 이 중복 투플 집합을 삭제할 수 있다.The
문장 재구조화 모델(232)은 중복 투플 집합을 제거하고 남은 투플 집합들을 문장 형식으로 변환할 수 있다. 여기서, 문장 재구조화 모델(232)은 투플 집합의 서술어가 전치사인 경우 제1명사 - 전치사 - 제2명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다. 반면, 문장 재구조화 모델(232)은 투플 집합의 서술어가 동사인 경우 제2명사 - 동사 - 제1명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다.The
일 예로, 투플 집합이 (소파, 앞의, 개)인 경우 투플 집합의 서술어가 전치사이므로, 문장 재구조화 모델(232)은 상기 투플 집합을 '소파 앞의 개'로 변환할 수 있다. 다른 예로, 투플 집합이 (사람, 눕다. 침대)인 경우 투플 집합의 서술어가 동사이므로, 문장 재구조화 모델(232)은 상기 투플 집합을 '침대에 누워있는 사람'으로 변환할 수 있다.For example, if the tuple set is (sofa, in front, dog), the predicate of the tuple set is a preposition, so the
문장 재구조화 모델(232)은 투플 집합을 문장 형식으로 변환하고, 변환된 문장을 캡션에 반영할 수 있다. 이후, 변환된 문장이 반영된 캡션(확장된 캡션)을 정답 캡션과 비교하여 스코어를 계산하고, 가장 큰 스코어를 갖는 구절을 선택할 수 있다. 문장 재구조화 모델(232)은 투플 집합을 문장 형식으로 변환 - 캡션에 적용 - 가장 큰 스코어를 갖는 구절 선택하는 방식을 통해 더 이상 남은 투플 집합이 없을때까지 반복할 수 있다. 이후, 문장 재구조화 모델(232)은 마지막에 선택된 구절을 최종 확장된 캡션으로서 선택할 수 있다.The
시각화 모델(234)은 문장 재구조화 모델(232)에서 확장시킨 캡션을 투플 집합과 매칭하여 시각화할 수 있다. 시각화 모델(234)은 문장 재구조화 모델(232)에서 확장된 캡션을 투플 집합과 매칭하여 투플 집합의 관계를 나타내는 그래프를 생성할 수 있다. 또한, 시각화 모델(234)은 생성한 투플 집합의 관계를 나타내는 그래프를 클라이언트(100)로 전송하여 사용자가 확장된 캡션이 생성된 근거를 확인할 수 있도록 할 수 있다. The
시각화 모델(234)은 캡션에 반영된 투플 집합에 해당하는 오브젝트 영역을 제공된 이미지 위에 표시할 수 있다. 이때, 시각화 모델(234)은 각각의 오브젝트 영역을 서로 다른 색 또는 서로 다른 선(선 종류나 두께 등)을 통해 표시할 수 있다. 또한, 시각화 모델(234)은 최종 캡션에서 오브젝트 영역과 대응되는 구절을 오브젝트 영역과 동일한 색으로 표시할 수 있다. 일 예로, 최종 캡션 문장이 '바닥에 누워있는 소파 앞의 개와 노트북 주변의 고양이'인 경우 시각화 모델(234)은 제공된 이미지 내의 소파 및 개를 하나의 오브젝트 영역으로써 빨간색 선을 이용하여 표시할 수 있다. 또한, 시각화 모델(234)은 최종 캡션 문장에서 '소파 앞의 개'를 빨간색 글씨로 표시할 수 있다. 이와 같이, 대응되는 구절 및 오브젝트 영역을 동일한 색으로 표시함으로써, 사용자가 이를 한눈에 알아 볼 수 있도록 할 수 있다.The
도 6은 본 발명의 실시 예에 따른 이미지에 대한 캡션 생성을 나타내는 도면이다.Figure 6 is a diagram showing caption creation for an image according to an embodiment of the present invention.
도 6을 참조하면, 클라이언트(100)로부터 이미지(10)가 제공되면 속성 추출 모델(212)은 제공된 이미지(10) 내 속성 정보(1)를 추출할 수 있다. 속성 추출 모델(212)은 학습된 이미지 및 이미지의 정답 캡션을 기초로 제공된 이미지(10) 내 속성 정보(1)를 추출할 수 있다. 일 예로, 속성 추출 모델(212)은 개, 고양이, 바닥 등을 속성 정보(1)로 추출할 수 있다.Referring to FIG. 6, when an image 10 is provided from the
또한, 오브젝트 인식 모델(214)은 속성 추출 모델(212)이 속성 정보(1)를 추출하는 것과 동시에 제공된 이미지(10) 내 오브젝트 정보 및 오브젝트를 포함하는 오브젝트 영역(2)을 추출할 수 있다. 오브젝트 인식 모델(214)은 학습된 이미지 및 이미지의 정답 캡션을 기초로 제공된 이미지(10) 내 오브젝트 영역(2)을 추출할 수 있다. 일 예로, 오브젝트 인식 모델(214)은 개, 고양이, 바닥 등을 오브젝트 정보로 추출할 수 있고, 오브젝트 정보를 포함하는 오브젝트 영역(2)을 추출할 수 있다.Additionally, the
또한, 이미지 캡션 모델(216)은 속성 추출 모델(212)에서 추출한 속성 정보 및 오브젝트 인식 모델(214)에서 추출한 오브젝트 정보를 이용하여 제공된 이미지(10)에 대한 캡션(3)을 생성할 수 있다. 일 예로, 이미지 캡션 모델(216)은 '바닥 위에 누워 있는 개와 고양이에 대한 거실 사진'이라는 캡션(3)을 생성할 수 있다.Additionally, the
도 7은 본 발명의 실시 예에 따른 확장된 캡션 생성을 나타내는 도면이다.Figure 7 is a diagram showing extended caption creation according to an embodiment of the present invention.
도 7을 참조하면, 오브젝트 추출 모델(222)은 제공된 이미지(10) 내 오브젝트 정보 및 오브젝트를 포함하는 오브젝트 영역(2)을 추출할 수 있다. 오브젝트 추출 모델(222)은 학습된 이미지 및 이미지의 정답 캡션을 기초로 제공된 이미지(10) 내 오브젝트 정보를 추출할 수 있다. 일 예로, 오브젝트 추출 모델(222)은 개, 고양이, 소파, 노트북, 문 등을 오브젝트 정보로 추출할 수 있고, 오브젝트 정보를 포함하는 오브젝트 영역(2)을 추출할 수 있다. 이때, 오브젝트 추출 모델(222)은 추출한 오브젝트들을 두 개 이상 포함하도록 오브젝트 영역(2)을 추출할 수 있다. 이를 통해, 관계 예측 모델(224)은 오브젝트 영역(2) 내의 오브젝트들의 관계를 예측할 수 있다.Referring to FIG. 7, the
관계 예측 모델(224)은 오브젝트 추출 모델(222)에서 추출한 오브젝트들 간의 관계를 예측할 수 있고, 오브젝트들 간의 관계를 투플 집합(4)으로 생성할 수 있다. 일 예로, 관계 예측 모델(224)은 오브젝트로 추출된 '소파'와 '개' 사이의 관계는 소파 앞의 개가 있는 것으로 예측할 수 있으며, 이에 따라 (소파, 앞의, 개)로 투플 집합(4)을 생성할 수 있다. 다른 예로, 관계 예측 모델(224)은 오브젝트로 추출된 '고양이'와 '문' 사이의 관계는 고양이가 문 옆에 있는 것으로 예측할 수 있으며, 이에 따라 (문, 옆의, 고양이)로 투플 집합(4)을 생성할 수 있다.The
문장 재구조화 모델(232)은 관계 예측 모델(224)에서 생성한 투플 집합(4)을 이용하여 알고리즘에 따라 일부 단어를 투플 집합에 대한 구절로 대치시키고, 생성된 캡션(3)을 확장시킬 수 있다. 즉, 문장 재구조화 모델(232)은 캡션 생성 모듈(210)에서 생성한 캡션(3)에 관계 생성 모듈(220)에서 생성된 투플 집합(4)을 반영하여 캡션을 더 확장시킬 수 있다. 일 예로, 문장 재구조화 모델(232)은 '바닥에 누워있는 소파 앞의 개와 문 옆의 노트북 주변의 고양이에 대한 거실 사진'으로 캡션을 확장시킬 수 있다. The
관계 그래프 생성 모델(226)은 관계 예측 모델(224)에서 생성된 투플 집합(4)에 대해 관계 그래프를 생성할 수 있다. 여기서, 관계 그래프 생성 모델(226)은 투플 집합(4)의 서술어를 네모 박스로 표현하고, 투플 집합의 명사들을 원형 박스로 표현할 수 있다. 관계 그래프 생성 모델(226)은 제1명사 - 서술어 - 제2명사의 순서로 각 박스들을 연결할 수 있다. The relationship
시각화 모델(234)은 이미지 위에 확장된 캡션의 구절들을 오브젝트 영역으로써 표시할 수 있고, 이때, 각 오브젝트 영역들은 다른 색으로 표시될 수 있다. 또한, 시각화 모델(234)은 각 오브젝트 영역들과 대응되는 확장된 캡션의 구절들을, 해당하는 오브젝트 영역과 동일한 색으로 표시함으로써 시각화할 수 있다.The
도 8은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 방법을 나타내는 도면이다.Figure 8 is a diagram showing a method for automatically generating image captions according to an embodiment of the present invention.
도 8을 참조하면, 캡션 생성 모듈(210)은 제공된 이미지의 속성 정보 및 오브젝트 정보를 추출하고, 추출한 이미지의 속성 정보 및 오브젝트 정보를 반영하여 캡션을 생성할 수 있다(S100).Referring to FIG. 8, the
캡션 생성 모듈(210)은 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 추출한 속성 정보 및 오브젝트 정보를 이용하여 캡션을 생성할 수 있다. 여기서, 속성 정보는 이미지와 관련된 단어들일 수 있고, 오브젝트 정보는 제공받은 이미지의 핵심 대상일 수 있다. 여기서, 캡션 생성 모듈(210)은 딥 러닝을 통해 학습된 이미지 및 각 이미지에 대한 캡션들을 기초로 제공된 이미지의 캡션을 생성할 수 있다.The
관계 생성 모듈(220)은 이미지 내 오브젝트들 사이의 관계를 예측하고, 예측된 관계들에 대한 투플 집합을 생성할 수 있다(S200). 관계 생성 모듈(220)은 이미지 내 오브젝트들 사이의 관계를 (제1명사, 서술어, 제2명사)로 구성되는 투플 집합으로 나타낼 수 있다.The
설명 생성 모듈(230)은 캡션 생성 모듈(210)에서 생성한 캡션과 관계 생성 모듈(220)에서 생성한 투플 집합을 이용하여 확장된 캡션을 생성할 수 있다(S300). 설명 생성 모듈(230)은 투플 집합을 문장으로 변환하고, 이를 캡션에 반영함으로써, 캡션을 확장시킬 수 있다.The
설명 생성 모듈(230)은 확장된 캡션 및 오브젝트들 사이의 관계를 그래프로 나타내어 시각화할 수 있다(S400). 설명 생성 모듈(230)은 확장된 캡션 및 오브젝트들 사이의 관계를 매칭하여 그래프를 생성할 수 있다. 설명 생성 모듈(230)은 생성한 그래프를 클라이언트(100)로 전송하여 사용자가 확장된 캡션이 생성된 근거를 확인할 수 있도록 할 수 있다. The
도 9은 본 발명의 실시 예에 따른 캡션을 생성하는 방법을 나타내는 도면이다. Figure 9 is a diagram showing a method for generating captions according to an embodiment of the present invention.
도 9를 참조하면, 속성 추출 모델(212)은 이미지의 속성 정보를 추출할 수 있다(S110). 여기서, 속성 추출 모델(212)은 이미지 및 이미지에 대한 캡션이 학습되어 있을 수 있다. 이에 따라, 속성 추출 모델(212)은 학습된 정보들을 이용하여 새로운 이미지와 관련된 속성 정보를 출력할 수 있다.Referring to FIG. 9, the
오브젝트 인식 모델(214)은 이미지 내 중요 오브젝트를 추출하고, 추출된 오브젝트를 포함하는 오브젝트 영역을 투플 형태로 변환할 수 있다(S120). 오브젝트 인식 모델(214)은 Mask R-CNN 알고리즘 등과 같은 딥 러닝 기반 오브젝트 인식 모델을 활용하여 제공된 이미지 내의 미리 정의된 오브젝트 영역에 해당하는 영역들을 제공된 이미지의 오브젝트 영역으로써, 추출할 수 있다.The
이미지 캡션 모델(216)은 제공된 이미지에서 추출한 속성 정보 및 오브젝트 영역에 대해 단어 주의도 및 영역 주의도를 부여할 수 있다(S130). 이미지 캡션 모델(216)은 현재 시간에 생성한 단어 태그와 관련성이 높은 단어 순서로 단어 주의도를 부여할 수 있다. 여기서, 단어 주의도 및 영역 주의도는 0 내지 1 사이의 값이며, 단어 태그와 관련성이 높을수록 1에 인접할 수 있다.The
이미지 캡션 모델(216)은 속성 추출 모델(212)에서 추출된 속성 정보, 오브젝트 인식 모델(214)에서 추출된 오브젝트 영역, 단어 주의도 및 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 예측할 수 있다(S140). 이미지 캡션 모델(216)은 예측한 단어 태그 및 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어 태그 및 문법 태그에 대한 손실값을 각각 계산할 수 있다.The
이미지 캡션 모델(216)은 단어 태그 및 문법 태그에 대한 손실값들을 반영하여 캡션을 생성할 수 있다(S150). 이에 따라, 이미지 캡션 모델(216)은 단어 태그 및 문법 태그를 이용하여 제공된 이미지에 대해 문법이 고려된 캡션 문장을 생성할 수 있고, 이를 학습할 수 있다.The
도 10은 본 발명의 실시 예에 따른 확장된 캡션을 생성하는 방법을 나타내는 도면이다. Figure 10 is a diagram showing a method for generating extended captions according to an embodiment of the present invention.
도 10을 참조하면, 설명 생성 모듈(210)은 관계 생성 모듈(220)에서 생성된 투플 집합들 중에서 캡션 생성 모듈(210)에서 생성된 캡션에 포함되는 투플 집합들을 제거할 수 있다(S310). 여기서, 투플 집합을 제거하는 것은 투플 집합 내 제1명사, 제2명사, 서술어가 캡션 생성 모듈(210)에서 생성된 캡션에 모두 포함되면 중복 투플 집합으로 판단하여 이 중복 투플 집합을 삭제할 수 있다.Referring to FIG. 10, the
설명 생성 모듈(210)은 중복 투플 집합을 제거하고 남은 투플 집합들을 문장 형식으로 변환할 수 있다(S320). 여기서, 설명 생성 모듈(210)은 투플 집합의 서술어가 전치사인 경우 제1명사 - 전치사 - 제2명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다. 반면, 설명 생성 모듈(210)은 투플 집합의 서술어가 동사인 경우 제2명사 - 동사 - 제1명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다.The
설명 생성 모듈(210)은 투플 집합들이 변환된 문장을 캡션에 반영할 수 있다(S330). 이후, 변환된 문장이 반영된 캡션(확장된 캡션)을 정답 캡션과 비교하여 스코어를 계산하고, 가장 큰 스코어를 갖는 구절을 선택할 수 있다. 문장 재구조화 모델(232)은 투플 집합을 문장 형식으로 변환 - 캡션에 적용 - 가장 큰 스코어를 갖는 구절 선택하는 방식을 통해 더 이상 남은 투플 집합이 없을때까지 반복할 수 있다. 이후, 설명 생성 모듈(210)은 마지막에 선택된 구절을 최종 확장된 캡션으로서 선택할 수 있다.The
설명 생성 모듈(210)은 문장 재구조화 모델(232)에서 확장시킨 캡션을 투플 집합과 매칭하여 시각화할 수 있다(S340). 설명 생성 모듈(210)은 확장된 캡션을 투플 집합과 매칭하여 투플 집합의 관계를 나타내는 그래프를 생성할 수 있다. 또한, 시각화 모델(234)은 생성한 투플 집합의 관계를 나타내는 그래프를 클라이언트(100)로 전송하여 사용자가 확장된 캡션이 생성된 근거를 확인할 수 있도록 할 수 있다. The
전술한 바와 같이, 본 발명의 실시 예에 따르면 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법을 제공할 수 있다.As described above, according to an embodiment of the present invention, an image caption is created by extracting attribute information and object information in an image using deep learning, and reconstructing the generated caption by predicting the relationship between object information. An automatic generation system and method can be provided.
본 발명이 속하는 기술 분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Those skilled in the art to which the present invention pertains should understand that the present invention can be implemented in other specific forms without changing its technical idea or essential features, and that the embodiments described above are illustrative in all respects and not restrictive. Just do it. The scope of the present invention is indicated by the claims described later rather than the detailed description, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. .
100: 클라이언트 200: 캡션 생성기
210: 캡션 생성 모듈 220: 관계 생성 모듈
230: 설명 생성 모듈 212: 속성 추출 모델
214: 오브젝트 인식 모델 216: 이미지 캡션 모델
216a: 속성 주의 모델 216b: 오브젝트 주의 모델
216c: 문법 학습 모델 216d: 언어 생성 모델
222: 오브젝트 추출 모델 224: 관계 예측 모델
226: 관계 그래프 생성 모델 232: 문장 재구조화 모델
234: 시각화 모델 226: 관계 그래프 생성 모델100: Client 200: Caption Generator
210: Caption creation module 220: Relationship creation module
230: Description generation module 212: Attribute extraction model
214: Object recognition model 216: Image caption model
216a:
216c:
222: Object extraction model 224: Relationship prediction model
226: Relationship graph generation model 232: Sentence restructuring model
234: Visualization model 226: Relationship graph generation model
Claims (13)
상기 캡션을 생성하기 위한 이미지를 제공하는 클라이언트; 및
상기 클라이언트로부터 제공받은 이미지를 분석하여 상기 이미지를 설명하는 캡션을 생성하고, 상기 생성한 캡션 및 상기 캡션을 생성한 근거를 상기 클라이언트로 전송하는 캡션 생성기;를 포함하되,
상기 캡션 생성기는,
딥 러닝을 이용하여 상기 제공받은 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 상기 속성 정보 및 상기 오브젝트 정보를 이용하여 상기 캡션을 생성하는 캡션 생성 모듈;
상기 이미지 내 오브젝트들 사이의 관계를 예측하고, 상기 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하는 관계 생성 모듈; 및
상기 캡션 생성 모듈에서 생성한 캡션 및 상기 관계 생성 모듈에서 생성한 상기 투플 집합을 이용하여 상기 캡션을 재구조화여 확장된 캡션을 생성하고, 상기 확장된 캡션 및 상기 투플 집합에 대한 그래프를 시각화하는 설명 생성 모듈;을 포함하고,
상기 캡션 생성 모듈은,
상기 제공받은 이미지와 가장 관련된 단어들을 추출하고, 각 단어들을 투플 형태로 변환하는 속성 추출 모델;
상기 이미지 내 중요 오브젝트들을 추출하고, 상기 추출된 오브젝트들을 포함하는 오브젝트 영역을 투플 형태로 변환하는 오브젝트 인식 모델;
상기 속성 추출 모델에서 추출한 단어들 및 상기 오브젝트 인식 모델에서 추출한 오브젝트 영역을 이용하여 상기 이미지의 캡션을 생성하는 이미지 캡션 모델;을 포함하며,
상기 이미지 캡션 모델은,
상기 속성 추출 모델에서 추출한 단어들에 대해 단어 주의도(attention score)를 부여하는 속성 주의 모델;
상기 오브젝트 인식 모델에서 추출한 오브젝트의 영역들에 대해 영역 주의도를 부여하는 오브젝트 주의 모델;
상기 이미지 및 상기 이미지의 캡션에 대한 문장의 문법을 학습하는 문법 학습 모델; 및
상기 속성 추출 모델에서 추출된 단어들, 상기 오브젝트 인식 모델에서 추출된 오브젝트 영역들, 상기 단어 주의도 및 상기 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 생성하는 언어 생성 모델;을 포함하고,
상기 언어 생성 모델은, 상기 단어 주의도, 상기 영역 주의도, 상기 속성 추출 모델에서 투플 형태로 변환한 단어들의 평균 벡터, 상기 오브젝트 인식 모델에서 투플 형태로 변환한 오브젝트 영역들의 평균 벡터, 상기 언어 생성 모델에서 이전 시간에 생성한 단어 및 상기 언어 생성 모델이 생성한 모든 단어들에 대한 압축된 정보를 모두 고려하여 현재 시간에서 단어 태그 및 문법 태그를 예측하는 이미지 캡션 자동 생성 시스템.
In an automatic caption generation system for automatically generating captions for images that describe the image.
a client providing an image for generating the caption; and
A caption generator that analyzes the image provided by the client, generates a caption describing the image, and transmits the generated caption and the basis for generating the caption to the client,
The caption generator is,
a caption generation module that extracts attribute information and object information in the provided image using deep learning and generates the caption using the attribute information and the object information;
a relationship creation module that predicts relationships between objects in the image and generates a tuple set in which the predicted relationships are structured in the form of a tuple; and
Description of generating an extended caption by restructuring the caption using the caption generated by the caption generation module and the tuple set generated by the relationship generation module, and visualizing a graph for the extended caption and the tuple set. Contains a creation module;
The caption creation module is,
an attribute extraction model that extracts words most related to the provided image and converts each word into a tuple form;
an object recognition model that extracts important objects in the image and converts an object area including the extracted objects into a tuple form;
An image caption model that generates a caption for the image using words extracted from the attribute extraction model and an object area extracted from the object recognition model,
The image caption model is,
an attribute attention model that assigns word attention scores to words extracted from the attribute extraction model;
an object attention model that assigns region attention to regions of the object extracted from the object recognition model;
a grammar learning model that learns the grammar of sentences for the image and the caption of the image; and
A language generation model that generates word tags and grammar tags for captions at each time step based on words extracted from the attribute extraction model, object areas extracted from the object recognition model, the word attention level, and the area attention level. Contains ;,
The language generation model includes the word attention level, the area attention level, the average vector of words converted to tuple form in the attribute extraction model, the average vector of object regions converted to tuple form in the object recognition model, and the language generation. An automatic image caption generation system that predicts word tags and grammar tags at the current time by considering both words generated by the model at a previous time and compressed information about all words generated by the language generation model.
상기 이미지 캡션 모델은 딥 러닝 알고리즘으로 수행되며, RNN(Recurrent neural network)을 기반으로 수행되며, 상기 이미지 내 오브젝트들 사이의 관계를 시계열적으로 예측하는 이미지 캡션 자동 생성 시스템.
According to paragraph 1,
The image caption model is performed using a deep learning algorithm and is based on a recurrent neural network (RNN), and an automatic image caption generation system that predicts relationships between objects in the image in time series.
상기 속성 주의 모델은 상기 언어 생성 모델에서 생성한 단어 태그와의 관련성에 대한 단어 순서로 상기 단어 주의도를 부여하고,
상기 오브젝트 주의 모델은 상기 언어 생성 모델에서 생성한 단어 태그와의 관련성에 대한 단어 순서로 상기 영역 주의도를 부여하고,
상기 단어 주의도 및 상기 영역 주의도는 0 내지 1 사이의 값이며, 상기 단어 태그와 관련성이 높을수록 1에 인접한 이미지 캡션 자동 생성 시스템.
According to paragraph 1,
The attribute attention model assigns the word attention to the word order based on its relationship with the word tag generated by the language generation model,
The object attention model assigns the region attention to word order based on its relationship with the word tag generated by the language generation model,
The word attention level and the area attention level are values between 0 and 1, and the higher the relevance to the word tag, the closer to 1 is the automatic image caption generation system.
상기 관계 생성 모듈은,
상기 제공된 이미지 내 중요한 오브젝트 영역들을 추출하는 오브젝트 인식 모델; 및
상기 추출된 영역들간의 관계를 예측하고, 상기 예측한 영역들간의 관계를 투플 형태로 구조화하여 투플 집합을 생성하는 관계 예측 모델; 및
상기 생성된 투플 집합에 대해 하나의 그래프를 생성하는 관계 그래프 생성 모델;을 포함하는 이미지 캡션 자동 생성 시스템.
According to paragraph 1,
The relationship creation module is,
an object recognition model that extracts important object areas within the provided image; and
a relationship prediction model that predicts relationships between the extracted regions and generates a tuple set by structuring the relationships between the predicted regions in a tuple form; and
An automatic image caption generation system including a relationship graph generation model that generates a graph for the generated tuple set.
상기 설명 생성 모듈은,
상기 캡션 생성 모듈에서 생성된 캡션 및 관계 생성 모듈에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 상기 생성된 캡션을 확장시키는 문장 재구조화 모델; 및
상기 문장 재구조화 모델에서 확장시킨 캡션을 상기 투플 집합과 매칭하여 시각화하는 시각화 모델;을 포함하는 이미지 캡션 자동 생성 시스템.
In clause 7,
The description generation module is,
a sentence restructuring model that replaces some words with phrases for tuples according to an algorithm using the caption generated in the caption generation module and the set of tuples generated in the relationship generation module, and expands the generated caption; and
A visualization model that visualizes the caption expanded from the sentence restructuring model by matching it with the tuple set. An automatic image caption generation system comprising a.
캡션 생성 모듈에서 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 상기 속성 정보 및 상기 오브젝트 정보를 이용하여 상기 캡션을 생성하는 단계;
관계 생성 모듈에서 상기 이미지 내 오브젝트들 사이의 관계를 예측하고, 상기 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하는 단계; 및
설명 생성 모듈에서 상기 생성한 캡션 및 상기 투플 집합을 이용하여 상기 캡션을 재구조화여 확장된 캡션을 생성하고, 상기 확장된 캡션 및 상기 투플 집합에 대한 그래프를 시각화하는 단계;를 포함하되,
상기 캡션을 생성하는 단계는,
상기 캡션 생성 모듈에서 상기 이미지와 가장 관련된 단어들을 추출하고, 각 단어들을 투플 형태로 변환하는 단계;
오브젝트 인식 모델에서 상기 이미지 내 중요 오브젝트들을 추출하고, 상기 추출된 오브젝트들을 포함하는 오브젝트 영역을 투플 형태로 변환하는 단계; 및
이미지 캡션 모델에서 상기 추출한 단어들 및 상기 추출한 오브젝트 영역을 이용하여 상기 이미지의 캡션을 생성하는 단계;를 포함하고,
상기 이미지의 캡션을 생성하는 단계는,
상기 이미지 캡션 모델에서 추출한 단어들에 대해 단어 주의도(attention score)를 부여하는 단계;
상기 이미지 캡션 모델에서 추출한 오브젝트 영역들에 대해 영역 주의도를 부여하는 단계;
상기 속성 정보, 상기 오브젝트 영역들, 상기 단어 주의도 및 상기 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 예측하는 단계; 및
단어 태그 및 문법 태그에 대한 손실값들을 반영하여 캡션을 생성하는 단계;를 포함하는 이미지 캡션 자동 생성 방법.
In the automatic caption generation method for automatically generating a caption describing an image,
extracting attribute information and object information in an image using deep learning in a caption generation module, and generating the caption using the attribute information and the object information;
Predicting relationships between objects in the image in a relationship creation module and generating a tuple set in which the predicted relationships are structured in the form of a tuple; and
Restructuring the caption in a description generation module using the generated caption and the tuple set to generate an extended caption, and visualizing a graph for the extended caption and the tuple set,
The step of generating the caption is,
extracting words most related to the image from the caption generation module and converting each word into a tuple form;
extracting important objects in the image from an object recognition model and converting an object area including the extracted objects into a tuple form; and
Generating a caption for the image using the extracted words and the extracted object area from an image caption model,
The step of generating a caption for the image is,
assigning word attention scores to words extracted from the image caption model;
assigning region attention to object regions extracted from the image caption model;
predicting word tags and grammar tags for captions at each time step based on the attribute information, the object areas, the word attention level, and the area attention level; and
An image caption automatic generation method comprising: generating a caption by reflecting loss values for word tags and grammar tags.
오브젝트 인식 모델에서 상기 이미지 내 중요한 오브젝트 영역들을 추출하는 단계;
관계 예측 모델에서 상기 추출된 영역들간의 관계를 예측하고, 상기 예측한 영역들간의 관계를 투플 형태로 구조화하여 투플 집합을 생성하는 단계; 및
관계 그래프 생성 모델에서 상기 생성된 투플 집합에 대해 하나의 그래프를 생성하는 단계;를 더 포함하는 이미지 캡션 자동 생성 방법.
The method of claim 9, wherein generating the tuple set comprises:
extracting important object areas within the image from an object recognition model;
predicting relationships between the extracted regions in a relationship prediction model, and structuring the relationships between the predicted regions in a tuple form to generate a tuple set; and
An image caption automatic generation method further comprising: generating a graph for the generated set of tuples in a relationship graph generation model.
문장 재구조화 모델에서 상기 생성된 캡션 및 관계 생성 모듈에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 상기 생성된 캡션을 확장시키는 단계; 및
시각화 모델에서 상기 확장시킨 캡션을 상기 투플 집합과 매칭하여 시각화하는 단계;를 더 포함하는 이미지 캡션 자동 생성 방법.
The method of claim 9, wherein visualizing a graph for the set of tuples comprises:
In the sentence restructuring model, replacing some words with phrases for tuples according to an algorithm using the tuple set generated in the caption and relationship generation module and expanding the generated caption; and
A method for automatically generating image captions, further comprising matching the expanded caption with the tuple set and visualizing it in a visualization model.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190023268A KR102622958B1 (en) | 2019-02-27 | 2019-02-27 | System and method for automatic generation of image caption |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190023268A KR102622958B1 (en) | 2019-02-27 | 2019-02-27 | System and method for automatic generation of image caption |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200104663A KR20200104663A (en) | 2020-09-04 |
KR102622958B1 true KR102622958B1 (en) | 2024-01-10 |
Family
ID=72470993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190023268A KR102622958B1 (en) | 2019-02-27 | 2019-02-27 | System and method for automatic generation of image caption |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102622958B1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102470959B1 (en) | 2019-12-31 | 2022-11-28 | 연세대학교 산학협력단 | Construction Site Management System and Management Method Based on Technologies for Automatic Intent Recognition and Photo Messaging with Construction Photographs |
CN112116685A (en) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | Multi-attention fusion network image subtitle generating method based on multi-granularity reward mechanism |
WO2022114322A1 (en) * | 2020-11-30 | 2022-06-02 | 한국과학기술원 | System and method for automatically generating image caption by using image object attribute-oriented model based on deep learning algorithm |
KR102551960B1 (en) * | 2021-07-30 | 2023-07-06 | 한국전자기술연구원 | Image captioning method and system based on object information condition |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170098153A1 (en) | 2015-10-02 | 2017-04-06 | Baidu Usa Llc | Intelligent image captioning |
US20170200065A1 (en) | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Image Captioning with Weak Supervision |
-
2019
- 2019-02-27 KR KR1020190023268A patent/KR102622958B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170098153A1 (en) | 2015-10-02 | 2017-04-06 | Baidu Usa Llc | Intelligent image captioning |
US20170200065A1 (en) | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Image Captioning with Weak Supervision |
Non-Patent Citations (2)
Title |
---|
Quanzeng You at al., ‘Image Captioning with Semantic Attention’, 2016.03.12.* |
Xu Yang at al., ‘Auto-Encoding Scene Graphs for Image Captioning’, 2018.12.11.* |
Also Published As
Publication number | Publication date |
---|---|
KR20200104663A (en) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102622958B1 (en) | System and method for automatic generation of image caption | |
JP6799800B2 (en) | Semantic information generation method, semantic information generation device, and program | |
US11093835B2 (en) | Natural language question expansion and extraction | |
Cheng et al. | Learning structured natural language representations for semantic parsing | |
CN106933804B (en) | Structured information extraction method based on deep learning | |
CN109062939A (en) | A kind of intelligence towards Chinese international education leads method | |
CN112214608B (en) | Text generation method, medium, device and computing equipment based on knowledge reasoning | |
CN108416065A (en) | Image based on level neural network-sentence description generates system and method | |
CN105631468A (en) | RNN-based automatic picture description generation method | |
US20230206661A1 (en) | Device and method for automatically generating domain-specific image caption by using semantic ontology | |
JP6975752B2 (en) | Training data generation methods, training data generators, electronics and computer readable media to generate training data for VQA systems | |
JP6856709B2 (en) | Training data generation methods, training data generators, electronics and computer readable storage media | |
Han et al. | Domain-specific image caption generator with semantic ontology | |
Jain et al. | Vishit: A visualizer for hindi text | |
KR20200106115A (en) | Apparatus and method for automatically generating explainable image caption | |
JP6614152B2 (en) | Text processing system, text processing method, and computer program | |
Zhang et al. | Let's be Humorous: Knowledge Enhanced Humor Generation | |
CN113191118B (en) | Text relation extraction method based on sequence annotation | |
CN114169408A (en) | Emotion classification method based on multi-mode attention mechanism | |
BE1022627B1 (en) | Method and device for automatically generating feedback | |
WO2022114322A1 (en) | System and method for automatically generating image caption by using image object attribute-oriented model based on deep learning algorithm | |
CN114998041A (en) | Method and device for training claim settlement prediction model, electronic equipment and storage medium | |
Stramandinoli et al. | Grounding speech utterances in robotics affordances: An embodied statistical language model | |
Chaudhari et al. | Indian Sign Language Generation–A Multi-modal Approach | |
KR102600839B1 (en) | Method and apparatus for generating summarized document using of sentence similarity relation predictive model, method and apparatus for learning predictive model used to generate summarized document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |