WO2022114322A1 - System and method for automatically generating image caption by using image object attribute-oriented model based on deep learning algorithm - Google Patents

System and method for automatically generating image caption by using image object attribute-oriented model based on deep learning algorithm Download PDF

Info

Publication number
WO2022114322A1
WO2022114322A1 PCT/KR2020/017272 KR2020017272W WO2022114322A1 WO 2022114322 A1 WO2022114322 A1 WO 2022114322A1 KR 2020017272 W KR2020017272 W KR 2020017272W WO 2022114322 A1 WO2022114322 A1 WO 2022114322A1
Authority
WO
WIPO (PCT)
Prior art keywords
caption
image
model
generating
relationship
Prior art date
Application number
PCT/KR2020/017272
Other languages
French (fr)
Korean (ko)
Inventor
최호진
한승호
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to PCT/KR2020/017272 priority Critical patent/WO2022114322A1/en
Publication of WO2022114322A1 publication Critical patent/WO2022114322A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof

Definitions

  • the present invention relates to a system and method for automatically generating image captions using an image object-attribute attention model based on a deep learning algorithm.
  • Image captioning is to generate a natural language sentence for a provided image to describe the image. Recently, with the development of artificial intelligence technology, a technology for automatically generating captions using a machine is being developed.
  • the technology for automatically generating captions using a machine is to search for images with the same label by using many existing images and label (one word to describe the image) information attached to each image, or Labels were assigned to an image to generate captions for the image.
  • Image captioning is to generate a caption describing the image as a natural language sentence for a provided image. Recently, with the development of artificial intelligence technology, a technology for automatically generating captions using a machine is being developed.
  • Automatically generating captions using a machine can be performed using information on many existing images and label (one word to describe the image) information for each image. That is, by searching for an image having the same label or assigning labels of similar images to one image, a caption for the image can be created.
  • the present invention is to solve the above-described problem, and extracts attribute information and object information in an image using deep learning to generate a caption, and predicts a relationship between object information to restructure the generated caption.
  • An object of the present invention is to provide an automatic generation system and method.
  • an automatic caption generation system for automatically generating a caption describing an image for an image is provided from a client device providing an image for generating a caption, and the client device It may include a caption generator that analyzes the received image to generate a caption describing the image, and transmits the generated caption and a reason for generating the caption to the client device.
  • attribute information and objects within the image using deep learning in the caption generation module Extracting information, generating a caption using attribute information and object information, predicting a relationship between objects in an image in a relationship creation module, and creating a tuple set in which the predicted relationships are structured in a tuple form
  • You can create an extended caption by restructuring the caption using the caption and tuple set created in the description generation module and visualize the graph for the extended caption and tuple set.
  • the automatic image caption generation system and method generates a caption by reflecting attribute information and object information in an image using deep learning, so that it is possible to improve the performance of generating a caption for an image.
  • FIG. 1 is a diagram showing the configuration of an image caption automatic generation system according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a configuration of a caption generator according to an embodiment of the present invention.
  • FIG. 3 is a diagram showing the configuration of a caption generating module according to an embodiment of the present invention.
  • FIG. 4 is a diagram showing the configuration of a relationship creation module according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating the configuration of a description generating module according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating caption generation for an image according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating generation of extended captions according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a method for automatically generating image captions according to an embodiment of the present invention.
  • FIG. 9 is a diagram illustrating a method of generating a caption according to an embodiment of the present invention.
  • FIG. 10 is a diagram illustrating a method of generating an extended caption according to an embodiment of the present invention.
  • FIG. 1 is a diagram showing the configuration of an image caption automatic generation system according to an embodiment of the present invention.
  • a system 1000 for automatically generating image captions may include a client 100 and a caption generator 200 .
  • the client 100 may provide an image for generating a caption.
  • the client 100 may be a user device (or client device) such as a smart phone or a tablet PC.
  • the client 100 may provide an image acquired (or photographed) in the user device and/or an image stored in the user device to the caption generator 200 .
  • the client 100 according to embodiments of the present invention is not limited to the aforementioned smart phone or tablet PC, and may be equally applied to various types of electronic devices.
  • the caption generator 200 may analyze the image provided from the client 100 to generate a caption describing the image, and transmit the generated caption and the basis for generating the caption to the client 100 .
  • the caption generator 200 may be a server capable of communicating with a user device of the client 100 by wire and/or wirelessly.
  • the caption generator 200 may analyze the image through deep learning. Specifically, the caption generator 200 may learn an image and an answer caption for the image.
  • the caption generator 200 may generate a caption for the new image by using the learned image and correct captions for the image.
  • the caption generator 200 may generate a caption for the image provided from the client 100 using the learned image and correct captions for the image.
  • the correct caption may be a sentence including five or more phrases arbitrarily set by the user for the image.
  • the caption generator 200 may extract an object of the provided image to predict a relationship between the objects, and may generate an extended caption by applying the predicted relationship to the generated caption.
  • the caption generator 200 may transmit the extended caption and the basis for generating the caption to the client 100 , and the client 100 may transmit the caption for the image delivered from the caption generator 200 and the basis for generating the caption. You can interpret the results of deep learning.
  • the client 100 and the caption generator 200 may be connected by wire or wirelessly.
  • FIG. 2 is a diagram illustrating a configuration of a caption generator according to an embodiment of the present invention.
  • the caption generator 200 may include a caption generating module 210 , a relationship generating module 220 , and a description generating module 230 .
  • the caption generating module 210 may learn an image and an answer caption for the image, and may generate a caption of the image provided from the client 100 by using the learned image and an answer caption for the image.
  • the caption generation module 210 may extract attribute information and object information in the image, and generate a caption using the extracted attribute information and object information.
  • the attribute information may be words related to an image
  • the object information may be a core target of the provided image.
  • the attribute information may be 'dog' or 'sofa'
  • the object information may be 'dog' or 'sofa' in the image.
  • the relationship generating module 220 may predict a relationship between objects in an image and generate a tuple set in which the predicted relationships are structured in a tuple form.
  • the tuple form enumerates elements, and the elements may be listed in parentheses '( )' by separating them with commas ','.
  • the relationship generating module 220 may predict a relationship between the object dog and the sofa. That is, the relationship generating module 220 may predict that the dog is in front of the sofa, and may structure the predicted relationship as (sofa, front, dog). At this time. '(sofa, front, dog)' may be a set of tuples.
  • the description generating module 230 may generate an extended caption by restructuring the caption using the caption generated by the caption generating module 210 and the tuple set generated by the relationship generating module 220 . That is, the description generating module 230 may generate an expanded caption by reflecting the relationship between the objects predicted by the relationship generating module 220 in the caption generated by the caption generating module 210 . Also, the description generating module 230 may visualize the extended caption and a graph for the tuple set that is the basis for generating the caption to the client 100 .
  • FIG. 3 is a diagram showing the configuration of a caption generating module according to an embodiment of the present invention.
  • the caption generation module 210 may include an attribute extraction model 212 , an object recognition model 214 , and an image caption model 216 .
  • the attribute extraction model 212 may extract attribute information of the provided image and convert the attribute information into a vector representation (or tuple form).
  • the attribute extraction model 212 may learn images and captions for images in advance using an image-text embedding model based on a deep learning algorithm. .
  • the attribute extraction model 320 may learn by extracting words related to each image in advance using an image caption database.
  • the image-text embedding model may be a model that outputs words related to a new image when a new image is input by mapping many images and words related to each image into one vector space. That is, the attribute extraction model 212 may output words related to a new image using images mapped to and stored in a vector space and words related to each image, and the output words may be used for learning.
  • the attribute extraction model 212 uses words in the form of verbs (or gerunds and participles) in the caption from the captions for each image and words in the form of nouns that exist three or more times to obtain captions for each image. words can be extracted from The attribute extraction model 212 may learn to embed the image and the extracted words into one vector space using a deep learning model.
  • the attribute extraction model 212 may extract words most related to the provided image by using the learned image and caption data for the image.
  • the object recognition model 214 may extract an important object in the image and convert the object region including the extracted object into a vector representation (or tuple form).
  • the object recognition model 214 may utilize a deep learning-based object recognition model such as the Mask R-CNN algorithm, etc. to extract regions corresponding to a predefined object region in the provided image as the object region of the provided image.
  • the object recognition model 214 may be trained in advance before the caption generating module 210 of FIG. 2 is trained.
  • the image caption model 216 describes the image provided from the client 100 based on vectors generated using each word extracted from the attribute extraction model 212 and object regions extracted from the object recognition model 214 . Captions can be created.
  • the image caption model 216 is performed using a deep learning algorithm, and may be performed based on a recurrent neural network (RNN). Accordingly, the image caption model 216 may time-sequentially predict the relationship between the objects in the image.
  • RNN recurrent neural network
  • the image caption model 216 may include an attribute attention model 216a, an object attention model 216b, a grammar learning model 216c, and a language generation model 216d.
  • the attribute attention model 216a may assign an attention score to words extracted from the attribute extraction model 212 .
  • the attribute attention model 216a may give the word attention to the word tag generated by the language generation model 216d at the current time in the order of a word having high relevance.
  • the word attention is a value between 0 and 1, and may be closer to 1 as the relevance to the word tag is higher.
  • the object attention model 216b may give region attention to regions of the object extracted from the object recognition model 214 .
  • the object attention model 216b may assign a region attention to a word tag generated by the language generation model 216d at the current time and a word order with high relevance.
  • the region attention is a value between 0 and 1, and may be closer to 1 as the relevance to the word tag is higher.
  • the grammar learning model 216c may learn the grammar of a sentence for an image and a caption of the image.
  • the grammar learning model 216c may tag each word in the sentence using a grammar tagging tool such as EasySRL for the correct caption sentence of the image, and learn the grammar of the correct caption sentence of the image.
  • a grammar tagging tool such as EasySRL for the correct caption sentence of the image
  • EasySRL EasySRL for the correct caption sentence of the image
  • the language generation model 216d includes words extracted from the attribute extraction model 216a, object regions extracted from the object recognition model 216b, word attention generated from the attribute attention model 216c, and the object attention model 216d. ), it is possible to generate a word tag and a grammar tag for a caption at each time step based on the area attention generated in .
  • the language generation model 216d is a word attention value, a region attention value, an average vector of words converted to a tuple form in the attribute extraction model 212, and an average of object regions converted to a tuple form in the object recognition model 214
  • a word tag and a grammar tag may be predicted at the current time by considering all the vectors, the word generated in the previous time by the language generation model 216d, and compressed information on all words generated by the language generation model 216d.
  • the language generation model 216d may calculate loss values for the generated word tag and the grammar tag by comparing the predicted word tag and the grammar tag with the correct caption sentence, respectively.
  • the language generation model 216d may update the learning parameters of the caption generation module 210 by reflecting the loss values for the word tag and the grammar tag.
  • the language generation model 216d may generate a caption sentence in which the grammar is considered with respect to the provided image by using the word tag and the grammar tag.
  • FIG. 4 is a diagram showing the configuration of a relationship creation module according to an embodiment of the present invention.
  • the relationship creation module 220 may include an object extraction model 222 , a relationship prediction model 224 , and a relationship graph generation model 226 .
  • the object recognition model 222 may extract important object regions in the provided image.
  • the object recognition model 222 may extract important objects in the provided image, and may extract object regions including the extracted objects.
  • the relationship prediction model 224 may predict a relationship between the extracted object regions and structure the relationship between the predicted object regions in a tuple form.
  • the relationship prediction model 224 may structure the relationship between predicted object regions in the form of (first noun, predicate, second noun).
  • the first noun and/or the second noun may be a noun representing an object in the image.
  • the relationship graph generation model 226 may generate one graph for the generated tuple set.
  • the relationship graph generation model 226 may generate graphs for the tuple sets, such as displaying an arrow from a first noun to a predicate, and displaying an arrow from a predicate to a second noun.
  • FIG. 5 is a diagram illustrating the configuration of a description generating module according to an embodiment of the present invention.
  • the description generating module 230 may include a sentence restructuring model 232 and a visualization model 234 .
  • the sentence restructuring model 232 uses the tuple set generated by the caption and relationship generation module 220 generated by the caption generation module 210 to replace some words with phrases for the tuples according to an algorithm, and the generated caption can be expanded. That is, the sentence restructuring model 232 may further expand the caption by reflecting the tuple set generated by the relationship generating module 220 to the caption generated by the caption generating module 210 .
  • the sentence restructuring model 232 may remove tuple sets included in the caption generated by the caption generation module 210 from among the tuple sets generated by the relationship generation module 220 .
  • the first noun, the second noun, and the predicate in the tuple set are all included in the caption generated by the caption generating module 210 to remove the tuple set, it is determined as a duplicate tuple set and the duplicate tuple set can be deleted.
  • the sentence restructuring model 232 may remove the duplicate tuple set and convert the remaining tuple sets into a sentence format.
  • the sentence restructuring model 232 may convert it into a sentence form by listing the first noun - the preposition - the second noun in the order.
  • the sentence restructuring model 232 may convert it into a sentence form by listing the second noun - the verb - the first noun in the order.
  • the sentence restructuring model 232 may convert the tuple set into 'dog in front of the sofa'.
  • the sentence restructuring model 232 may convert the tuple set into 'a person lying in bed'.
  • the sentence restructuring model 232 may convert the tuple set into a sentence format and reflect the transformed sentence in the caption. Thereafter, a score may be calculated by comparing the caption (extended caption) in which the converted sentence is reflected with the correct caption, and a phrase having the highest score may be selected. The sentence restructuring model 232 may iterate until there are no more tuples sets remaining through a method of converting the tuple set into a sentence form - applying it to a caption - and selecting a phrase having the highest score. Thereafter, the sentence restructuring model 232 may select the last selected phrase as the final extended caption.
  • the visualization model 234 may visualize the caption extended by the sentence restructuring model 232 by matching it with the tuple set.
  • the visualization model 234 may generate a graph representing the relationship between the tuple sets by matching the caption extended in the sentence restructuring model 232 with the tuple set.
  • the visualization model 234 may transmit a graph representing the relationship between the generated tuple set to the client 100 so that the user can check the basis for generating the expanded caption.
  • the visualization model 234 may display an object region corresponding to the tuple set reflected in the caption on the provided image.
  • the visualization model 234 may display each object area through different colors or different lines (such as line types or thicknesses).
  • the visualization model 234 may display a phrase corresponding to the object area in the final caption in the same color as the object area. For example, if the final caption sentence is 'a dog in front of a sofa lying on the floor and a cat around a laptop', the visualization model 234 may display the sofa and the dog in the provided image as one object area using a red line. .
  • the visualization model 234 may display 'dog in front of the sofa' in red text in the final caption sentence. In this way, by displaying the corresponding phrase and the object area in the same color, the user can recognize it at a glance.
  • FIG. 6 is a diagram illustrating caption generation for an image according to an embodiment of the present invention.
  • the attribute extraction model 212 may extract attribute information 1 in the provided image 10 .
  • the attribute extraction model 212 may extract attribute information 1 in the provided image 10 based on the learned image and the correct caption of the image. As an example, the attribute extraction model 212 may extract a dog, a cat, a floor, etc. as the attribute information 1 .
  • the object recognition model 214 may extract the object region 2 including the object information and the object in the provided image 10 at the same time that the attribute extraction model 212 extracts the attribute information 1 .
  • the object recognition model 214 may extract the object region 2 in the provided image 10 based on the learned image and the correct caption of the image.
  • the object recognition model 214 may extract a dog, a cat, a floor, etc. as object information, and may extract the object region 2 including the object information.
  • the image caption model 216 may generate a caption 3 for the provided image 10 using the attribute information extracted from the attribute extraction model 212 and the object information extracted from the object recognition model 214 .
  • the image caption model 216 may generate the caption 3 'a living room photo of a dog and a cat lying on the floor'.
  • FIG. 7 is a diagram illustrating generation of extended captions according to an embodiment of the present invention.
  • the object extraction model 222 may extract the object region 2 including the object information and the object in the provided image 10 .
  • the object extraction model 222 may extract object information in the provided image 10 based on the learned image and the correct caption of the image. For example, the object extraction model 222 may extract a dog, a cat, a sofa, a notebook, a door, etc. as object information, and may extract the object region 2 including the object information. In this case, the object extraction model 222 may extract the object region 2 to include two or more extracted objects. Through this, the relationship prediction model 224 may predict the relationship between objects in the object region 2 .
  • the relationship prediction model 224 may predict the relationship between the objects extracted from the object extraction model 222 , and may generate the relationship between the objects as a tuple set 4 .
  • the relationship prediction model 224 may predict that the relationship between 'sofa' and 'dog' extracted as an object is that there is a dog in front of the sofa, and accordingly, a tuple set (4) ) can be created.
  • the relationship prediction model 224 may predict that the relationship between 'cat' and 'door' extracted as an object is that the cat is next to the door, and accordingly, a tuple set ( 4) can be created.
  • the sentence restructuring model 232 uses the tuple set 4 generated by the relationship prediction model 224 to replace some words with phrases for the tuple set according to the algorithm, and to expand the generated caption 3 have. That is, the sentence restructuring model 232 may further expand the caption by reflecting the tuple set 4 generated by the relationship generating module 220 to the caption 3 generated by the caption generating module 210 . For example, the sentence restructuring model 232 may extend the caption to 'a living room photo of a dog in front of a sofa lying on the floor and a cat near a laptop next to the door'.
  • the relationship graph generation model 226 may generate a relationship graph for the tuple set 4 generated by the relationship prediction model 224 .
  • the relationship graph generation model 226 may express the predicate of the tuple set 4 as a square box and the nouns of the tuple set as a circular box.
  • the relationship graph generation model 226 may connect each box in the order of a first noun - a predicate - a second noun.
  • the visualization model 234 may display phrases of the extended caption on the image as object areas, and in this case, each object area may be displayed in a different color. Also, the visualization model 234 may visualize the phrases of the extended caption corresponding to each object area by displaying the phrases in the same color as the corresponding object area.
  • FIG. 8 is a diagram illustrating a method for automatically generating image captions according to an embodiment of the present invention.
  • the caption generating module 210 may extract attribute information and object information of a provided image, and generate a caption by reflecting attribute information and object information of the extracted image ( S100 ).
  • the caption generation module 210 may extract attribute information and object information in the image, and generate a caption using the extracted attribute information and object information.
  • the attribute information may be words related to an image
  • the object information may be a core target of the provided image.
  • the caption generating module 210 may generate a caption of the provided image based on the image learned through deep learning and captions for each image.
  • the relationship generating module 220 may predict a relationship between objects in an image and generate a tuple set for the predicted relationships ( S200 ).
  • the relationship generating module 220 may represent a relationship between objects in an image as a tuple set consisting of (a first noun, a predicate, and a second noun).
  • the description generating module 230 may generate an extended caption using the caption generated by the caption generating module 210 and the tuple set generated by the relationship generating module 220 ( S300 ).
  • the description generating module 230 may expand the caption by converting the tuple set into a sentence and reflecting it in the caption.
  • the description generating module 230 may visualize the relationship between the extended caption and the objects as a graph (S400).
  • the description generating module 230 may generate a graph by matching the extended caption and the relationship between the objects.
  • the description generating module 230 may transmit the generated graph to the client 100 so that the user can check the basis for generating the expanded caption.
  • FIG. 9 is a diagram illustrating a method of generating a caption according to an embodiment of the present invention.
  • the attribute extraction model 212 may extract attribute information of an image ( S110 ).
  • the attribute extraction model 212 may be trained on an image and a caption for the image. Accordingly, the attribute extraction model 212 may output attribute information related to a new image by using the learned information.
  • the object recognition model 214 may extract an important object in the image and convert the object region including the extracted object into a tuple form (S120).
  • the object recognition model 214 may utilize a deep learning-based object recognition model, such as a Mask R-CNN algorithm, to extract regions corresponding to a predefined object region in the provided image as an object region of the provided image.
  • the image caption model 216 may give word attention and region attention to attribute information and object regions extracted from the provided image ( S130 ).
  • the image caption model 216 may give word attention to a word tag generated at the current time and a word order with high relevance.
  • the word attention degree and the area attention degree are values between 0 and 1, and may be closer to 1 as the relevance to the word tag increases.
  • the image caption model 216 includes the attribute information extracted from the attribute extraction model 212, the object region extracted from the object recognition model 214, word tags for captions, and word tags for each time step based on word attention and region attention.
  • a grammar tag may be predicted (S140).
  • the image caption model 216 may calculate loss values for the word tag and the grammar tag generated by comparing the predicted word tag and the grammar tag with the correct caption sentence, respectively.
  • the image caption model 216 may generate a caption by reflecting the loss values for the word tag and the grammar tag (S150). Accordingly, the image caption model 216 may generate a caption sentence in which the grammar is considered for the provided image by using the word tag and the grammar tag, and may learn it.
  • FIG. 10 is a diagram illustrating a method of generating an extended caption according to an embodiment of the present invention.
  • the description generating module 210 may remove tuple sets included in the caption generated by the caption generating module 210 from among the tuple sets generated by the relationship generating module 220 ( S310 ).
  • the first noun, the second noun, and the predicate in the tuple set are all included in the caption generated by the caption generating module 210 to remove the tuple set, it is determined as a duplicate tuple set and the duplicate tuple set can be deleted.
  • the description generating module 210 may remove the duplicate tuple set and convert the remaining tuple sets into a sentence format (S320).
  • the predicate of the tuple set is a preposition
  • the description generating module 210 may convert it into a sentence form by listing the first noun - the preposition - the second noun in the order.
  • the predicate of the tuple set is a verb
  • the description generating module 210 may convert it into a sentence form by listing the second noun - the verb - the first noun in the order.
  • the description generating module 210 may reflect the converted sentence of the tuple sets in the caption (S330). Thereafter, a score may be calculated by comparing the caption (extended caption) in which the converted sentence is reflected with the correct caption, and a phrase having the highest score may be selected.
  • the sentence restructuring model 232 may iterate until there are no more tuples sets remaining through a method of converting the tuple set into a sentence form - applying it to the caption - and selecting the phrase having the highest score. Thereafter, the description generating module 210 may select the last selected phrase as the final extended caption.
  • the description generating module 210 may visualize the caption extended in the sentence restructuring model 232 by matching it with the tuple set (S340).
  • the description generating module 210 may generate a graph representing the relationship of the tuple set by matching the extended caption with the tuple set.
  • the visualization model 234 may transmit a graph representing the relationship between the generated tuple set to the client 100 so that the user can check the basis for generating the expanded caption.
  • a caption is generated by extracting attribute information and object information in an image using deep learning, and the generated caption is restructured by predicting a relationship between object information.
  • Automated generation systems and methods may be provided.

Abstract

The present invention relates to an automatic image caption generation system and method which generate a caption by using deep learning to extract attribute information and object information in an image, and which restructure the generated caption by predicting the relationship between pieces of object information. An automatic caption generation system for automatically generating, for an image, a caption describing the image, according to an embodiment of the present invention, comprises: a client device for providing the image for which the caption is to be generated; and a caption generator which analyzes the image provided from the client device to generate the caption describing the image, and which transmits, to the client, the generated caption and a foundation for generating the caption.

Description

딥 러닝 알고리즘 기반의 이미지 오브젝트 속성 주의 모델을 이용한 이미지 캡션 자동 생성 시스템 및 방법A system and method for automatically generating image captions using a deep learning algorithm-based image object attribute attention model
본 발명은 딥 러닝 알고리즘 기반의 이미지 오브젝트-속성 주의 모델을 이용한 이미지 캡션 자동 생성 시스템 및 방법에 관한 것으로, 보다 자세하게는 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for automatically generating image captions using an image object-attribute attention model based on a deep learning algorithm. A system and method for automatically generating image captions for restructuring a generated caption by predicting a relationship between object information.
이미지 캡셔닝은 제공되는 이미지에 대해 그 이미지를 설명하는 자연어 문장을 생성하는 것으로, 최근에는 인공지능 기술의 발전으로 기계를 이용하여 자동으로 캡션을 생성하는 기술이 개발되고 있다.Image captioning is to generate a natural language sentence for a provided image to describe the image. Recently, with the development of artificial intelligence technology, a technology for automatically generating captions using a machine is being developed.
이와 같이, 기계를 이용하여 자동으로 캡션을 생성하는 기술은 기존의 존재하는 많은 이미지와 각 이미지에 달린 라벨(이미지를 설명하는 한 단어) 정보를 이용하여 라벨이 같은 이미지를 검색하거나, 유사한 이미지들의 라벨들을 하나의 이미지에 할당하여 이미지에 대한 캡션을 생성하였다.As such, the technology for automatically generating captions using a machine is to search for images with the same label by using many existing images and label (one word to describe the image) information attached to each image, or Labels were assigned to an image to generate captions for the image.
이미지 캡셔닝은 제공되는 이미지에 대해 그 이미지를 설명하는 캡션을 자연어 문장으로 생성하는 것이다. 최근에는 인공지능 기술의 발전으로 기계를 이용하여 자동으로 캡션을 생성하는 기술이 개발되고 있다.Image captioning is to generate a caption describing the image as a natural language sentence for a provided image. Recently, with the development of artificial intelligence technology, a technology for automatically generating captions using a machine is being developed.
기계를 이용하여 자동으로 캡션을 생성하는 것은 기존에 존재하는 많은 이미지와 각 이미지에 대한 라벨(이미지를 설명하는 한 단어) 정보를 이용하여 수행될 수 있다. 즉, 라벨이 같은 이미지를 검색하거나, 유사한 이미지들의 라벨들을 하나의 이미지에 할당함으로써 이미지에 대한 캡션을 생성할 수 있게 되는 것이다.Automatically generating captions using a machine can be performed using information on many existing images and label (one word to describe the image) information for each image. That is, by searching for an image having the same label or assigning labels of similar images to one image, a caption for the image can be created.
그러나, 이러한 방법의 경우 새로운 이미지에 대해 저장되어 있는 이미지 및 라벨 데이터만을 이용하여 캡션을 생성하므로, 자연어 문장으로 된 캡션을 생성하기 어렵고, 자연어 문장으로 된 캡션을 생성하더라도 문장의 질이 떨어지는 문제가 있다.However, in this method, since captions are generated using only image and label data stored for a new image, it is difficult to generate a caption in natural language sentences, and even if a caption in natural language sentences is generated, the quality of the sentences is deteriorated. have.
본 발명은 앞에서 설명한 문제점을 해결하기 위한 것으로, 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법을 제공하는 것을 목적으로 한다.The present invention is to solve the above-described problem, and extracts attribute information and object information in an image using deep learning to generate a caption, and predicts a relationship between object information to restructure the generated caption. An object of the present invention is to provide an automatic generation system and method.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.In addition to the technical problems of the present invention mentioned above, other features and advantages of the present invention will be described below, or will be clearly understood by those of ordinary skill in the art from such description and description.
앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 시스템은 캡션을 생성하기 위한 이미지를 제공하는 클라이언트 장치와, 클라이언트 장치로부터 제공받은 이미지를 분석하여 이미지를 설명하는 캡션을 생성하고, 생성한 캡션 및 캡션을 생성한 근거를 클라이언트 장치로 전송하는 캡션 생성기를 포함할 수 있다.According to an embodiment of the present invention for achieving the above-described object, an automatic caption generation system for automatically generating a caption describing an image for an image is provided from a client device providing an image for generating a caption, and the client device It may include a caption generator that analyzes the received image to generate a caption describing the image, and transmits the generated caption and a reason for generating the caption to the client device.
한편, 앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 방법은 캡션 생성 모듈에서 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 속성 정보 및 오브젝트 정보를 이용하여 캡션을 생성하는 단계와, 관계 생성 모듈에서 이미지 내 오브젝트들 사이의 관계를 예측하고, 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하고, 설명 생성 모듈에서 생성한 캡션 및 투플 집합을 이용하여 캡션을 재구조화여 확장된 캡션을 생성하고, 확장된 캡션 및 투플 집합에 대한 그래프를 시각화할 수 있다.Meanwhile, in the method for automatically generating captions for automatically generating captions describing images for images according to an embodiment of the present invention for achieving the above-described object, attribute information and objects within the image using deep learning in the caption generation module Extracting information, generating a caption using attribute information and object information, predicting a relationship between objects in an image in a relationship creation module, and creating a tuple set in which the predicted relationships are structured in a tuple form You can create an extended caption by restructuring the caption using the caption and tuple set created in the description generation module and visualize the graph for the extended caption and tuple set.
본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템 및 방법은 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 반영하여 캡션을 생성하므로 이미지에 대한 캡션 생성의 성능을 향상시킬 수 있다.The automatic image caption generation system and method according to an embodiment of the present invention generates a caption by reflecting attribute information and object information in an image using deep learning, so that it is possible to improve the performance of generating a caption for an image.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.In addition, other features and advantages of the present invention may be newly recognized through embodiments of the present invention.
도 1은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템의 구성을 나타내는 도면이다.1 is a diagram showing the configuration of an image caption automatic generation system according to an embodiment of the present invention.
도 2는 본 발명의 실시 예에 따른 캡션 생성기의 구성을 나타내는 도면이다.2 is a diagram illustrating a configuration of a caption generator according to an embodiment of the present invention.
도 3은 본 발명의 실시 예에 따른 캡션 생성 모듈의 구성을 나타내는 도면이다.3 is a diagram showing the configuration of a caption generating module according to an embodiment of the present invention.
도 4는 본 발명의 실시 예에 따른 관계 생성 모듈의 구성을 나타내는 도면이다.4 is a diagram showing the configuration of a relationship creation module according to an embodiment of the present invention.
도 5는 본 발명의 실시 예에 따른 설명 생성 모듈의 구성을 나타내는 도면이다.5 is a diagram illustrating the configuration of a description generating module according to an embodiment of the present invention.
도 6은 본 발명의 실시 예에 따른 이미지에 대한 캡션 생성을 나타내는 도면이다.6 is a diagram illustrating caption generation for an image according to an embodiment of the present invention.
도 7은 본 발명의 실시 예에 따른 확장된 캡션 생성을 나타내는 도면이다.7 is a diagram illustrating generation of extended captions according to an embodiment of the present invention.
도 8은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 방법을 나타내는 도면이다.8 is a diagram illustrating a method for automatically generating image captions according to an embodiment of the present invention.
도 9는 본 발명의 실시 예에 따른 캡션을 생성하는 방법을 나타내는 도면이다. 9 is a diagram illustrating a method of generating a caption according to an embodiment of the present invention.
도 10은 본 발명의 실시 예에 따른 확장된 캡션을 생성하는 방법을 나타내는 도면이다. 10 is a diagram illustrating a method of generating an extended caption according to an embodiment of the present invention.
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.In order to clearly explain the present invention, parts irrelevant to the description are omitted, and the same reference numerals are assigned to the same or similar components throughout the specification.
여기서 사용되는 전문 용어는 단지 특정 실시 예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분의 존재나 부가를 제외시키는 것은 아니다.The terminology used herein is for the purpose of referring to specific embodiments only, and is not intended to limit the present invention. As used herein, the singular forms also include the plural forms unless the phrases clearly indicate the opposite. The meaning of "comprising," as used herein, specifies a particular characteristic, region, integer, step, operation, element and/or component, and includes the presence or absence of another characteristic, region, integer, step, operation, element and/or component. It does not exclude additions.
다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련 기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.Although not defined otherwise, all terms including technical and scientific terms used herein have the same meaning as commonly understood by those of ordinary skill in the art to which the present invention belongs. Commonly used terms defined in the dictionary are additionally interpreted as having a meaning consistent with the related technical literature and the presently disclosed content, and unless defined, are not interpreted in an ideal or very formal meaning.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those of ordinary skill in the art can easily implement them. However, the present invention may be implemented in several different forms and is not limited to the embodiments described herein.
도 1은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템의 구성을 나타내는 도면이다.1 is a diagram showing the configuration of an image caption automatic generation system according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템(1000)은 클라이언트(100), 캡션 생성기(200)를 포함할 수 있다.Referring to FIG. 1 , a system 1000 for automatically generating image captions according to an embodiment of the present invention may include a client 100 and a caption generator 200 .
클라이언트(100)는 캡션을 생성하기 위한 이미지를 제공할 수 있다. 클라이언트(100)는 스마트폰이나 태블릿 PC와 같은 사용자 디바이스(또는 클라이언트 장치)일 수 있다. 클라이언트(100)는 사용자 디바이스에서 획득된(또는 촬영된) 이미지, 및/또는 사용자 디바이스에 저장된 이미지를 캡션 생성기(200)로 제공할 수 있다. 본 발명의 실시예들에 따른 클라이언트(100)는 상술한 스마트폰, 또는 태블릿 PC에 한정되지 않고, 다양한 형태의 전자 장치에 동일하게 적용될 수 있다. The client 100 may provide an image for generating a caption. The client 100 may be a user device (or client device) such as a smart phone or a tablet PC. The client 100 may provide an image acquired (or photographed) in the user device and/or an image stored in the user device to the caption generator 200 . The client 100 according to embodiments of the present invention is not limited to the aforementioned smart phone or tablet PC, and may be equally applied to various types of electronic devices.
또한, 캡션 생성기(200)는 클라이언트(100)로부터 제공받은 이미지를 분석하여 해당 이미지를 설명하는 캡션을 생성하고, 생성한 캡션 및 캡션을 생성한 근거를 클라이언트(100)로 전송할 수 있다. 일실시예에 따르면, 캡션 생성기(200)는 클라이언트(100)의 사용자 디바이스와 유선 및/또는 무선으로 통신이 가능한 서버일 수 있다.Also, the caption generator 200 may analyze the image provided from the client 100 to generate a caption describing the image, and transmit the generated caption and the basis for generating the caption to the client 100 . According to an embodiment, the caption generator 200 may be a server capable of communicating with a user device of the client 100 by wire and/or wirelessly.
여기서, 캡션 생성기(200)는 딥 러닝을 통해 이미지를 분석할 수 있다. 구체적으로, 캡션 생성기(200)는 이미지 및 이미지에 대한 정답 캡션을 학습할 수 있다.Here, the caption generator 200 may analyze the image through deep learning. Specifically, the caption generator 200 may learn an image and an answer caption for the image.
캡션 생성기(200)는 학습된 이미지 및 이미지에 대한 정답 캡션들을 이용하여 새로운 이미지에 대한 캡션을 생성할 수 있다. 캡션 생성기(200)는 학습된 이미지 및 이미지에 대한 정답 캡션들을 이용하여 클라이언트(100)로부터 제공된 이미지에 대해 캡션을 생성할 수 있다. 여기서, 정답 캡션은 사용자가 이미지에 대해 임의로 설정한 5개 이상의 구절을 포함하는 문장일 수 있다. 또한, 캡션 생성기(200)는 제공된 이미지의 오브젝트를 추출하여 오브젝트들간의 관계를 예측하고, 예측된 관계들을 생성된 캡션에 적용함으로써 더 확장된 캡션을 생성할 수 있다.The caption generator 200 may generate a caption for the new image by using the learned image and correct captions for the image. The caption generator 200 may generate a caption for the image provided from the client 100 using the learned image and correct captions for the image. Here, the correct caption may be a sentence including five or more phrases arbitrarily set by the user for the image. Also, the caption generator 200 may extract an object of the provided image to predict a relationship between the objects, and may generate an extended caption by applying the predicted relationship to the generated caption.
캡션 생성기(200)는 확장된 캡션 및 캡션이 생성된 근거를 클라이언트(100)로 전달할 수 있고, 클라이언트(100)는 캡션 생성기(200)에서 전달된 이미지에 대한 캡션 및 캡션이 생성된 근거를 통해 딥 러닝의 대한 결과를 해석할 수 있다. 여기서, 클라이언트(100) 및 캡션 생성기(200)는 유선 또는 무선으로 연결될 수 있다.The caption generator 200 may transmit the extended caption and the basis for generating the caption to the client 100 , and the client 100 may transmit the caption for the image delivered from the caption generator 200 and the basis for generating the caption. You can interpret the results of deep learning. Here, the client 100 and the caption generator 200 may be connected by wire or wirelessly.
도 2는 본 발명의 실시 예에 따른 캡션 생성기의 구성을 나타내는 도면이다.2 is a diagram illustrating a configuration of a caption generator according to an embodiment of the present invention.
도 2를 참조하면, 본 발명의 실시 예에 따른 캡션 생성기(200)는 캡션 생성 모듈(210), 관계 생성 모듈(220) 및 설명 생성 모듈(230)을 포함할 수 있다.Referring to FIG. 2 , the caption generator 200 according to an embodiment of the present invention may include a caption generating module 210 , a relationship generating module 220 , and a description generating module 230 .
캡션 생성 모듈(210)은 이미지 및 이미지에 대한 정답 캡션을 학습할 수 있으며, 학습된 이미지 및 이미지에 대한 정답 캡션을 이용하여, 클라이언트(100)로부터 제공된 이미지의 캡션을 생성할 수 있다. 캡션 생성 모듈(210)은 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 추출한 속성 정보 및 오브젝트 정보를 이용하여 캡션을 생성할 수 있다. 여기서, 속성 정보는 이미지와 관련된 단어들일 수 있고, 오브젝트 정보는 제공받은 이미지의 핵심 대상일 수 있다. 일 예로, 소파 앞의 개를 포함하고 있는 이미지의 경우, 속성 정보는 '개', '소파'일 수 있고, 오브젝트 정보는 이미지 내의 '개', '소파'일 수 있다. The caption generating module 210 may learn an image and an answer caption for the image, and may generate a caption of the image provided from the client 100 by using the learned image and an answer caption for the image. The caption generation module 210 may extract attribute information and object information in the image, and generate a caption using the extracted attribute information and object information. Here, the attribute information may be words related to an image, and the object information may be a core target of the provided image. For example, in the case of an image including a dog in front of a sofa, the attribute information may be 'dog' or 'sofa', and the object information may be 'dog' or 'sofa' in the image.
관계 생성 모듈(220)은 이미지 내 오브젝트들 사이의 관계를 예측하고, 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성할 수 있다. 여기서, 투플 형태는 원소들을 열거한 것으로, 원소들을 괄호 '( )'안에 쉼표 ','로 구분하여 나열하는 것일 수 있다. 일 예로, 소파 앞의 개를 포함하고 있는 이미지가 제공된 경우, 관계 생성 모듈(220)은 오브젝트인 개와 소파 사이의 관계를 예측할 수 있다. 즉, 관계 생성 모듈(220)은 개가 소파 앞의 있음을 예측할 수 있고, 예측된 관계를 (소파, 앞의, 개)로 구조화할 수 있다. 이때. '(소파, 앞의, 개)'는 투플 집합일 수 있다.The relationship generating module 220 may predict a relationship between objects in an image and generate a tuple set in which the predicted relationships are structured in a tuple form. Here, the tuple form enumerates elements, and the elements may be listed in parentheses '( )' by separating them with commas ','. As an example, when an image including a dog in front of a sofa is provided, the relationship generating module 220 may predict a relationship between the object dog and the sofa. That is, the relationship generating module 220 may predict that the dog is in front of the sofa, and may structure the predicted relationship as (sofa, front, dog). At this time. '(sofa, front, dog)' may be a set of tuples.
설명 생성 모듈(230)은 캡션 생성 모듈(210)에서 생성한 캡션 및 관계 생성 모듈(220)에서 생성한 투플 집합을 이용하여 캡션을 재구조화여 확장된 캡션을 생성할 수 있다. 즉, 설명 생성 모듈(230)은 캡션 생성 모듈(210)에서 생성한 캡션에 관계 생성 모듈(220)에서 예측한 오브젝트들 사이의 관계를 반영하여 더 확장된 캡션을 생성할 수 있다. 또한, 설명 생성 모듈(230)은 확장된 캡션 및 캡션이 생성된 근거인 투플 집합에 대한 그래프를 시각화하여 클라이언트(100)로 전송할 수 있다.The description generating module 230 may generate an extended caption by restructuring the caption using the caption generated by the caption generating module 210 and the tuple set generated by the relationship generating module 220 . That is, the description generating module 230 may generate an expanded caption by reflecting the relationship between the objects predicted by the relationship generating module 220 in the caption generated by the caption generating module 210 . Also, the description generating module 230 may visualize the extended caption and a graph for the tuple set that is the basis for generating the caption to the client 100 .
도 3은 본 발명의 실시 예에 따른 캡션 생성 모듈의 구성을 나타내는 도면이다.3 is a diagram showing the configuration of a caption generating module according to an embodiment of the present invention.
도 3을 참조하면, 본 발명의 실시 예에 따른 캡션 생성 모듈(210)은 속성 추출 모델(212), 오브젝트 인식 모델(214) 및 이미지 캡션 모델(216)을 포함할 수 있다.Referring to FIG. 3 , the caption generation module 210 according to an embodiment of the present invention may include an attribute extraction model 212 , an object recognition model 214 , and an image caption model 216 .
속성 추출 모델(212)은 제공받은 이미지의 속성 정보를 추출하고, 속성 정보를 벡터 표현(또는 투플 형태)으로 변환할 수 있다. 여기서, 속성 추출 모델(212)은 딥 러닝 알고리즘 기반의 이미지-텍스트 임베딩 모델을 이용하여 이미지 및 이미지에 대한 캡션을 미리 학습할 수 있다. . 예를 들어, 속성 추출 모델(320)은 도 2의 캡션 생성 모듈(210)이 학습되기 이전에, 이미지 캡션 데이터베이스를 이용하여 각 이미지에 관련된 단어들을 미리 추출하여 학습할 수 있다. 이미지-텍스트 임베딩 모델은 많은 이미지들과 각 이미지에 관련된 단어들을 하나의 벡터 공간에 매핑함으로써, 새로운 이미지가 입력되는 경우, 새로운 이미지에 관련된 단어들을 출력하는 모델일 수 있다. 즉,속성 추출 모델(212)은 하나의 벡터 공간에 매핑되어 저장된 이미지들 및 각 이미지에 관련된 단어들을 이용하여 새로운 이미지와 관련된 단어들을 출력하고, 출력한 단어들을 학습에 이용할 수 있다.The attribute extraction model 212 may extract attribute information of the provided image and convert the attribute information into a vector representation (or tuple form). Here, the attribute extraction model 212 may learn images and captions for images in advance using an image-text embedding model based on a deep learning algorithm. . For example, before the caption generating module 210 of FIG. 2 is trained, the attribute extraction model 320 may learn by extracting words related to each image in advance using an image caption database. The image-text embedding model may be a model that outputs words related to a new image when a new image is input by mapping many images and words related to each image into one vector space. That is, the attribute extraction model 212 may output words related to a new image using images mapped to and stored in a vector space and words related to each image, and the output words may be used for learning.
또한, 속성 추출 모델(212)은 각 이미지에 대한 캡션들로부터 캡션 내 동사(또는 동명사 및 분사) 형태의 단어들과 3번 이상 동일하게 존재하는 명사 형태의 단어들을 이용하여 각 이미지에 대한 캡션들로부터 단어들을 추출할 수 있다. 속성 추출 모델(212)은 해당 이미지 및 추출된 단어들을 딥 러닝 모델을 이용하여 하나의 벡터 공간에 임베딩 되도록 학습할 수 있다.In addition, the attribute extraction model 212 uses words in the form of verbs (or gerunds and participles) in the caption from the captions for each image and words in the form of nouns that exist three or more times to obtain captions for each image. words can be extracted from The attribute extraction model 212 may learn to embed the image and the extracted words into one vector space using a deep learning model.
이에 따라, 속성 추출 모델(212)은 학습되어 있는 이미지 및 이미지에 대한 캡션 데이터를 이용하여 제공받은 이미지와 가장 관련된 단어들을 추출할 수 있다.Accordingly, the attribute extraction model 212 may extract words most related to the provided image by using the learned image and caption data for the image.
오브젝트 인식 모델(214)은 이미지 내 중요 오브젝트를 추출하고, 추출된 오브젝트를 포함하는 오브젝트 영역을 벡터 표현(또는 투플 형태)으로 변환할 수 있다. 오브젝트 인식 모델(214)은 Mask R-CNN 알고리즘 등과 같은 딥 러닝 기반 오브젝트 인식 모델을 활용하여 제공된 이미지 내의 미리 정의된 오브젝트 영역에 해당하는 영역들을 제공된 이미지의 오브젝트 영역으로써, 추출할 수 있다. 오브젝트 인식 모델(214)은 속성 추출 모델(320)과 같이, 도 2의 캡션 생성 모듈(210)이 학습되기 이전에 미리 학습될 수 있다.The object recognition model 214 may extract an important object in the image and convert the object region including the extracted object into a vector representation (or tuple form). The object recognition model 214 may utilize a deep learning-based object recognition model such as the Mask R-CNN algorithm, etc. to extract regions corresponding to a predefined object region in the provided image as the object region of the provided image. Like the attribute extraction model 320 , the object recognition model 214 may be trained in advance before the caption generating module 210 of FIG. 2 is trained.
이미지 캡션 모델(216)은 속성 추출 모델(212)에서 추출된 각 단어들 및 오브젝트 인식 모델(214)에서 추출된 오브젝트 영역들을 이용하여 생성된 벡터들을 기반으로, 클라이언트(100)로부터 제공된 이미지를 설명하는 캡션을 생성할 수 있다.The image caption model 216 describes the image provided from the client 100 based on vectors generated using each word extracted from the attribute extraction model 212 and object regions extracted from the object recognition model 214 . Captions can be created.
이미지 캡션 모델(216)은 딥 러닝 알고리즘으로 수행되며, RNN(Recurrent neural network)을 기반으로 수행될 수 있다. 이에 따라, 이미지 캡션 모델(216)은 이미지 내 오브젝트들 사이의 관계를 시계열적으로 예측할 수 있다.The image caption model 216 is performed using a deep learning algorithm, and may be performed based on a recurrent neural network (RNN). Accordingly, the image caption model 216 may time-sequentially predict the relationship between the objects in the image.
본 발명의 실시 예에 따른 이미지 캡션 모델(216)은 속성 주의 모델(216a), 오브젝트 주의 모델(216b), 문법 학습 모델(216c) 및 언어 생성 모델(216d)을 포함할 수 있다.The image caption model 216 according to an embodiment of the present invention may include an attribute attention model 216a, an object attention model 216b, a grammar learning model 216c, and a language generation model 216d.
속성 주의 모델(216a)은 속성 추출 모델(212)에서 추출된 단어들에 대해 단어 주의도(attention score)를 부여할 수 있다. 속성 주의 모델(216a)은 현재 시간에 언어 생성 모델(216d)에서 생성한 단어 태그와 관련성이 높은 단어 순서로 단어 주의도를 부여할 수 있다. 여기서, 단어 주의도는 0 내지 1 사이의 값이며, 단어 태그와 관련성이 높을수록 1에 인접할 수 있다.The attribute attention model 216a may assign an attention score to words extracted from the attribute extraction model 212 . The attribute attention model 216a may give the word attention to the word tag generated by the language generation model 216d at the current time in the order of a word having high relevance. Here, the word attention is a value between 0 and 1, and may be closer to 1 as the relevance to the word tag is higher.
오브젝트 주의 모델(216b)은 오브젝트 인식 모델(214)에서 추출한 오브젝트의 영역들에 대해 영역 주의도를 부여할 수 있다. 오브젝트 주의 모델(216b)은 현재 시간에 언어 생성 모델(216d)에서 생성한 단어 태그와 관련성이 높은 단어 순서로 영역 주의도를 부여할 수 있다. 여기서, 영역 주의도는 0 내지 1 사이의 값이며, 단어 태그와 관련성이 높을수록 1에 인접할 수 있다.The object attention model 216b may give region attention to regions of the object extracted from the object recognition model 214 . The object attention model 216b may assign a region attention to a word tag generated by the language generation model 216d at the current time and a word order with high relevance. Here, the region attention is a value between 0 and 1, and may be closer to 1 as the relevance to the word tag is higher.
문법 학습 모델(216c)은 이미지 및 이미지의 캡션에 대한 문장의 문법을 학습할 수 있다. 문법 학습 모델(216c)은 이미지의 정답 캡션 문장에 대해 EasySRL과 같은 문법 태깅 도구를 이용하여 문장 내 각 단어들에 대해 태깅하고, 이미지의 정답 캡션 문장의 문법을 학습할 수 있다. 문법 학습 모델(216c)이 캡션 문장의 문법을 학습함으로써, 제공된 이미지에 대해 캡션을 생성할 때 문법적인 측면이 고려될 수 있도록 할 수 있다. The grammar learning model 216c may learn the grammar of a sentence for an image and a caption of the image. The grammar learning model 216c may tag each word in the sentence using a grammar tagging tool such as EasySRL for the correct caption sentence of the image, and learn the grammar of the correct caption sentence of the image. By learning the grammar of the caption sentence by the grammar learning model 216c, a grammatical aspect may be taken into account when generating a caption for the provided image.
언어 생성 모델(216d)은 속성 추출 모델(216a)에서 추출된 단어들, 오브젝트 인식 모델(216b)에서 추출된 오브젝트 영역들, 속성 주의 모델(216c)에서 생성된 단어 주의도 및 오브젝트 주의 모델(216d)에서 생성된 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 생성할 수 있다.The language generation model 216d includes words extracted from the attribute extraction model 216a, object regions extracted from the object recognition model 216b, word attention generated from the attribute attention model 216c, and the object attention model 216d. ), it is possible to generate a word tag and a grammar tag for a caption at each time step based on the area attention generated in .
언어 생성 모델(216d)은 단어 주의도 값, 영역 주의도 값, 속성 추출 모델(212)에서 투플 형태로 변환한 단어들의 평균 벡터, 오브젝트 인식 모델(214)에서 투플 형태로 변환한 오브젝트 영역들의 평균 벡터, 언어 생성 모델(216d)에서 이전 시간에 생성한 단어 및 언어 생성 모델(216d)이 생성한 모든 단어들에 대한 압축된 정보를 모두 고려하여 현재 시간에서 단어 태그 및 문법 태그를 예측할 수 있다. 언어 생성 모델(216d)은 예측한 단어 태그 및 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어 태그 및 문법 태그에 대한 손실값을 각각 계산할 수 있다. 언어 생성 모델(216d)은 단어 태그 및 문법 태그에 대한 손실값들을 반영하여 캡션 생성 모듈(210)의 학습 파라미터들을 업데이트할 수 있다.The language generation model 216d is a word attention value, a region attention value, an average vector of words converted to a tuple form in the attribute extraction model 212, and an average of object regions converted to a tuple form in the object recognition model 214 A word tag and a grammar tag may be predicted at the current time by considering all the vectors, the word generated in the previous time by the language generation model 216d, and compressed information on all words generated by the language generation model 216d. The language generation model 216d may calculate loss values for the generated word tag and the grammar tag by comparing the predicted word tag and the grammar tag with the correct caption sentence, respectively. The language generation model 216d may update the learning parameters of the caption generation module 210 by reflecting the loss values for the word tag and the grammar tag.
이에 따라, 언어 생성 모델(216d)은 단어 태그 및 문법 태그를 이용하여 제공된 이미지에 대해 문법이 고려된 캡션 문장을 생성할 수 있다.Accordingly, the language generation model 216d may generate a caption sentence in which the grammar is considered with respect to the provided image by using the word tag and the grammar tag.
도 4는 본 발명의 실시 예에 따른 관계 생성 모듈의 구성을 나타내는 도면이다.4 is a diagram showing the configuration of a relationship creation module according to an embodiment of the present invention.
도 4를 참조하면, 본 발명의 실시 예에 따른 관계 생성 모듈(220)은 오브젝트 추출 모델(222), 관계 예측 모델(224) 및 관계 그래프 생성 모델(226)을 포함할 수 있다.Referring to FIG. 4 , the relationship creation module 220 according to an embodiment of the present invention may include an object extraction model 222 , a relationship prediction model 224 , and a relationship graph generation model 226 .
오브젝트 인식 모델(222)은 제공된 이미지 내 중요한 오브젝트 영역들을 추출할 수 있다. 오브젝트 인식 모델(222)은 제공된 이미지 내 중요한 오브젝트들을 추출하고, 추출한 오브젝트들을 포함하는 오브젝트 영역들을 추출할 수 있다. The object recognition model 222 may extract important object regions in the provided image. The object recognition model 222 may extract important objects in the provided image, and may extract object regions including the extracted objects.
관계 예측 모델(224)은 추출된 오브젝트 영역들간의 관계를 예측하고, 예측한 오브젝트 영역들간의 관계를 투플 형태로 구조화할 수 있다. 여기서, 관계 예측 모델(224)은 예측한 오브젝트 영역들간의 관계를 (제1명사, 서술어, 제2명사)의 형태로 구조화할 수 있다. 제1명사, 및/또는 제2명사는 이미지 내 오브젝트를 나타내는 명사일 수 있다. The relationship prediction model 224 may predict a relationship between the extracted object regions and structure the relationship between the predicted object regions in a tuple form. Here, the relationship prediction model 224 may structure the relationship between predicted object regions in the form of (first noun, predicate, second noun). The first noun and/or the second noun may be a noun representing an object in the image.
관계 그래프 생성 모델(226)은 생성된 투플 집합에 대해 하나의 그래프를 생성할 수 있다. 관계 그래프 생성 모델(226)은 투플 집합들에 대해 제1명사로부터 서술어로 화살표를 표시하고, 서술어로부터 제2명사로 화살표를 표시하는 등의 그래프를 생성할 수 있다.The relationship graph generation model 226 may generate one graph for the generated tuple set. The relationship graph generation model 226 may generate graphs for the tuple sets, such as displaying an arrow from a first noun to a predicate, and displaying an arrow from a predicate to a second noun.
도 5는 본 발명의 실시 예에 따른 설명 생성 모듈의 구성을 나타내는 도면이다.5 is a diagram illustrating the configuration of a description generating module according to an embodiment of the present invention.
도 5를 참조하면, 본 발명의 실시 예에 따른 설명 생성 모듈(230)은 문장 재구조화 모델(232) 및 시각화 모델(234)을 포함할 수 있다.Referring to FIG. 5 , the description generating module 230 according to an embodiment of the present invention may include a sentence restructuring model 232 and a visualization model 234 .
문장 재구조화 모델(232)은 캡션 생성 모듈(210)에서 생성된 캡션 및 관계 생성 모듈(220)에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 생성된 캡션을 확장시킬 수 있다. 즉, 문장 재구조화 모델(232)은 캡션 생성 모듈(210)에서 생성한 캡션에 관계 생성 모듈(220)에서 생성된 투플 집합을 반영하여 캡션을 더 확장시킬 수 있다.The sentence restructuring model 232 uses the tuple set generated by the caption and relationship generation module 220 generated by the caption generation module 210 to replace some words with phrases for the tuples according to an algorithm, and the generated caption can be expanded. That is, the sentence restructuring model 232 may further expand the caption by reflecting the tuple set generated by the relationship generating module 220 to the caption generated by the caption generating module 210 .
문장 재구조화 모델(232)은 관계 생성 모듈(220)에서 생성된 투플 집합들 중에서 캡션 생성 모듈(210)에서 생성된 캡션에 포함되는 투플 집합들을 제거할 수 있다. 여기서, 투플 집합을 제거하는 것은 투플 집합 내 제1명사, 제2명사, 서술어가 캡션 생성 모듈(210)에서 생성된 캡션에 모두 포함되면 중복 투플 집합으로 판단하여 이 중복 투플 집합을 삭제할 수 있다.The sentence restructuring model 232 may remove tuple sets included in the caption generated by the caption generation module 210 from among the tuple sets generated by the relationship generation module 220 . Here, when the first noun, the second noun, and the predicate in the tuple set are all included in the caption generated by the caption generating module 210 to remove the tuple set, it is determined as a duplicate tuple set and the duplicate tuple set can be deleted.
문장 재구조화 모델(232)은 중복 투플 집합을 제거하고 남은 투플 집합들을 문장 형식으로 변환할 수 있다. 여기서, 문장 재구조화 모델(232)은 투플 집합의 서술어가 전치사인 경우 제1명사 - 전치사 - 제2명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다. 반면, 문장 재구조화 모델(232)은 투플 집합의 서술어가 동사인 경우 제2명사 - 동사 - 제1명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다.The sentence restructuring model 232 may remove the duplicate tuple set and convert the remaining tuple sets into a sentence format. Here, when the predicate of the tuple set is a preposition, the sentence restructuring model 232 may convert it into a sentence form by listing the first noun - the preposition - the second noun in the order. On the other hand, when the predicate of the tuple set is a verb, the sentence restructuring model 232 may convert it into a sentence form by listing the second noun - the verb - the first noun in the order.
일 예로, 투플 집합이 (소파, 앞의, 개)인 경우 투플 집합의 서술어가 전치사이므로, 문장 재구조화 모델(232)은 상기 투플 집합을 '소파 앞의 개'로 변환할 수 있다. 다른 예로, 투플 집합이 (사람, 눕다. 침대)인 경우 투플 집합의 서술어가 동사이므로, 문장 재구조화 모델(232)은 상기 투플 집합을 '침대에 누워있는 사람'으로 변환할 수 있다.For example, when the tuple set is (sofa, front, dog), the predicate of the tuple set is a preposition, so the sentence restructuring model 232 may convert the tuple set into 'dog in front of the sofa'. As another example, when the tuple set is (person, lie down, bed), since the predicate of the tuple set is a verb, the sentence restructuring model 232 may convert the tuple set into 'a person lying in bed'.
문장 재구조화 모델(232)은 투플 집합을 문장 형식으로 변환하고, 변환된 문장을 캡션에 반영할 수 있다. 이후, 변환된 문장이 반영된 캡션(확장된 캡션)을 정답 캡션과 비교하여 스코어를 계산하고, 가장 큰 스코어를 갖는 구절을 선택할 수 있다. 문장 재구조화 모델(232)은 투플 집합을 문장 형식으로 변환 - 캡션에 적용 - 가장 큰 스코어를 갖는 구절 선택하는 방식을 통해 더 이상 남은 투플 집합이 없을때까지 반복할 수 있다. 이후, 문장 재구조화 모델(232)은 마지막에 선택된 구절을 최종 확장된 캡션으로서 선택할 수 있다.The sentence restructuring model 232 may convert the tuple set into a sentence format and reflect the transformed sentence in the caption. Thereafter, a score may be calculated by comparing the caption (extended caption) in which the converted sentence is reflected with the correct caption, and a phrase having the highest score may be selected. The sentence restructuring model 232 may iterate until there are no more tuples sets remaining through a method of converting the tuple set into a sentence form - applying it to a caption - and selecting a phrase having the highest score. Thereafter, the sentence restructuring model 232 may select the last selected phrase as the final extended caption.
시각화 모델(234)은 문장 재구조화 모델(232)에서 확장시킨 캡션을 투플 집합과 매칭하여 시각화할 수 있다. 시각화 모델(234)은 문장 재구조화 모델(232)에서 확장된 캡션을 투플 집합과 매칭하여 투플 집합의 관계를 나타내는 그래프를 생성할 수 있다. 또한, 시각화 모델(234)은 생성한 투플 집합의 관계를 나타내는 그래프를 클라이언트(100)로 전송하여 사용자가 확장된 캡션이 생성된 근거를 확인할 수 있도록 할 수 있다. The visualization model 234 may visualize the caption extended by the sentence restructuring model 232 by matching it with the tuple set. The visualization model 234 may generate a graph representing the relationship between the tuple sets by matching the caption extended in the sentence restructuring model 232 with the tuple set. In addition, the visualization model 234 may transmit a graph representing the relationship between the generated tuple set to the client 100 so that the user can check the basis for generating the expanded caption.
시각화 모델(234)은 캡션에 반영된 투플 집합에 해당하는 오브젝트 영역을 제공된 이미지 위에 표시할 수 있다. 이때, 시각화 모델(234)은 각각의 오브젝트 영역을 서로 다른 색 또는 서로 다른 선(선 종류나 두께 등)을 통해 표시할 수 있다. 또한, 시각화 모델(234)은 최종 캡션에서 오브젝트 영역과 대응되는 구절을 오브젝트 영역과 동일한 색으로 표시할 수 있다. 일 예로, 최종 캡션 문장이 '바닥에 누워있는 소파 앞의 개와 노트북 주변의 고양이'인 경우 시각화 모델(234)은 제공된 이미지 내의 소파 및 개를 하나의 오브젝트 영역으로써 빨간색 선을 이용하여 표시할 수 있다. 또한, 시각화 모델(234)은 최종 캡션 문장에서 '소파 앞의 개'를 빨간색 글씨로 표시할 수 있다. 이와 같이, 대응되는 구절 및 오브젝트 영역을 동일한 색으로 표시함으로써, 사용자가 이를 한눈에 알아 볼 수 있도록 할 수 있다.The visualization model 234 may display an object region corresponding to the tuple set reflected in the caption on the provided image. In this case, the visualization model 234 may display each object area through different colors or different lines (such as line types or thicknesses). Also, the visualization model 234 may display a phrase corresponding to the object area in the final caption in the same color as the object area. For example, if the final caption sentence is 'a dog in front of a sofa lying on the floor and a cat around a laptop', the visualization model 234 may display the sofa and the dog in the provided image as one object area using a red line. . Also, the visualization model 234 may display 'dog in front of the sofa' in red text in the final caption sentence. In this way, by displaying the corresponding phrase and the object area in the same color, the user can recognize it at a glance.
도 6은 본 발명의 실시 예에 따른 이미지에 대한 캡션 생성을 나타내는 도면이다.6 is a diagram illustrating caption generation for an image according to an embodiment of the present invention.
도 6을 참조하면, 클라이언트(100)로부터 이미지(10)가 제공되면 속성 추출 모델(212)은 제공된 이미지(10) 내 속성 정보(1)를 추출할 수 있다. 속성 추출 모델(212)은 학습된 이미지 및 이미지의 정답 캡션을 기초로 제공된 이미지(10) 내 속성 정보(1)를 추출할 수 있다. 일 예로, 속성 추출 모델(212)은 개, 고양이, 바닥 등을 속성 정보(1)로 추출할 수 있다.Referring to FIG. 6 , when the image 10 is provided from the client 100 , the attribute extraction model 212 may extract attribute information 1 in the provided image 10 . The attribute extraction model 212 may extract attribute information 1 in the provided image 10 based on the learned image and the correct caption of the image. As an example, the attribute extraction model 212 may extract a dog, a cat, a floor, etc. as the attribute information 1 .
또한, 오브젝트 인식 모델(214)은 속성 추출 모델(212)이 속성 정보(1)를 추출하는 것과 동시에 제공된 이미지(10) 내 오브젝트 정보 및 오브젝트를 포함하는 오브젝트 영역(2)을 추출할 수 있다. 오브젝트 인식 모델(214)은 학습된 이미지 및 이미지의 정답 캡션을 기초로 제공된 이미지(10) 내 오브젝트 영역(2)을 추출할 수 있다. 일 예로, 오브젝트 인식 모델(214)은 개, 고양이, 바닥 등을 오브젝트 정보로 추출할 수 있고, 오브젝트 정보를 포함하는 오브젝트 영역(2)을 추출할 수 있다.Also, the object recognition model 214 may extract the object region 2 including the object information and the object in the provided image 10 at the same time that the attribute extraction model 212 extracts the attribute information 1 . The object recognition model 214 may extract the object region 2 in the provided image 10 based on the learned image and the correct caption of the image. As an example, the object recognition model 214 may extract a dog, a cat, a floor, etc. as object information, and may extract the object region 2 including the object information.
또한, 이미지 캡션 모델(216)은 속성 추출 모델(212)에서 추출한 속성 정보 및 오브젝트 인식 모델(214)에서 추출한 오브젝트 정보를 이용하여 제공된 이미지(10)에 대한 캡션(3)을 생성할 수 있다. 일 예로, 이미지 캡션 모델(216)은 '바닥 위에 누워 있는 개와 고양이에 대한 거실 사진'이라는 캡션(3)을 생성할 수 있다.Also, the image caption model 216 may generate a caption 3 for the provided image 10 using the attribute information extracted from the attribute extraction model 212 and the object information extracted from the object recognition model 214 . As an example, the image caption model 216 may generate the caption 3 'a living room photo of a dog and a cat lying on the floor'.
도 7은 본 발명의 실시 예에 따른 확장된 캡션 생성을 나타내는 도면이다.7 is a diagram illustrating generation of extended captions according to an embodiment of the present invention.
도 7을 참조하면, 오브젝트 추출 모델(222)은 제공된 이미지(10) 내 오브젝트 정보 및 오브젝트를 포함하는 오브젝트 영역(2)을 추출할 수 있다. 오브젝트 추출 모델(222)은 학습된 이미지 및 이미지의 정답 캡션을 기초로 제공된 이미지(10) 내 오브젝트 정보를 추출할 수 있다. 일 예로, 오브젝트 추출 모델(222)은 개, 고양이, 소파, 노트북, 문 등을 오브젝트 정보로 추출할 수 있고, 오브젝트 정보를 포함하는 오브젝트 영역(2)을 추출할 수 있다. 이때, 오브젝트 추출 모델(222)은 추출한 오브젝트들을 두 개 이상 포함하도록 오브젝트 영역(2)을 추출할 수 있다. 이를 통해, 관계 예측 모델(224)은 오브젝트 영역(2) 내의 오브젝트들의 관계를 예측할 수 있다.Referring to FIG. 7 , the object extraction model 222 may extract the object region 2 including the object information and the object in the provided image 10 . The object extraction model 222 may extract object information in the provided image 10 based on the learned image and the correct caption of the image. For example, the object extraction model 222 may extract a dog, a cat, a sofa, a notebook, a door, etc. as object information, and may extract the object region 2 including the object information. In this case, the object extraction model 222 may extract the object region 2 to include two or more extracted objects. Through this, the relationship prediction model 224 may predict the relationship between objects in the object region 2 .
관계 예측 모델(224)은 오브젝트 추출 모델(222)에서 추출한 오브젝트들 간의 관계를 예측할 수 있고, 오브젝트들 간의 관계를 투플 집합(4)으로 생성할 수 있다. 일 예로, 관계 예측 모델(224)은 오브젝트로 추출된 '소파'와 '개' 사이의 관계는 소파 앞의 개가 있는 것으로 예측할 수 있으며, 이에 따라 (소파, 앞의, 개)로 투플 집합(4)을 생성할 수 있다. 다른 예로, 관계 예측 모델(224)은 오브젝트로 추출된 '고양이'와 '문' 사이의 관계는 고양이가 문 옆에 있는 것으로 예측할 수 있으며, 이에 따라 (문, 옆의, 고양이)로 투플 집합(4)을 생성할 수 있다.The relationship prediction model 224 may predict the relationship between the objects extracted from the object extraction model 222 , and may generate the relationship between the objects as a tuple set 4 . As an example, the relationship prediction model 224 may predict that the relationship between 'sofa' and 'dog' extracted as an object is that there is a dog in front of the sofa, and accordingly, a tuple set (4) ) can be created. As another example, the relationship prediction model 224 may predict that the relationship between 'cat' and 'door' extracted as an object is that the cat is next to the door, and accordingly, a tuple set ( 4) can be created.
문장 재구조화 모델(232)은 관계 예측 모델(224)에서 생성한 투플 집합(4)을 이용하여 알고리즘에 따라 일부 단어를 투플 집합에 대한 구절로 대치시키고, 생성된 캡션(3)을 확장시킬 수 있다. 즉, 문장 재구조화 모델(232)은 캡션 생성 모듈(210)에서 생성한 캡션(3)에 관계 생성 모듈(220)에서 생성된 투플 집합(4)을 반영하여 캡션을 더 확장시킬 수 있다. 일 예로, 문장 재구조화 모델(232)은 '바닥에 누워있는 소파 앞의 개와 문 옆의 노트북 주변의 고양이에 대한 거실 사진'으로 캡션을 확장시킬 수 있다. The sentence restructuring model 232 uses the tuple set 4 generated by the relationship prediction model 224 to replace some words with phrases for the tuple set according to the algorithm, and to expand the generated caption 3 have. That is, the sentence restructuring model 232 may further expand the caption by reflecting the tuple set 4 generated by the relationship generating module 220 to the caption 3 generated by the caption generating module 210 . For example, the sentence restructuring model 232 may extend the caption to 'a living room photo of a dog in front of a sofa lying on the floor and a cat near a laptop next to the door'.
관계 그래프 생성 모델(226)은 관계 예측 모델(224)에서 생성된 투플 집합(4)에 대해 관계 그래프를 생성할 수 있다. 여기서, 관계 그래프 생성 모델(226)은 투플 집합(4)의 서술어를 네모 박스로 표현하고, 투플 집합의 명사들을 원형 박스로 표현할 수 있다. 관계 그래프 생성 모델(226)은 제1명사 - 서술어 - 제2명사의 순서로 각 박스들을 연결할 수 있다. The relationship graph generation model 226 may generate a relationship graph for the tuple set 4 generated by the relationship prediction model 224 . Here, the relationship graph generation model 226 may express the predicate of the tuple set 4 as a square box and the nouns of the tuple set as a circular box. The relationship graph generation model 226 may connect each box in the order of a first noun - a predicate - a second noun.
시각화 모델(234)은 이미지 위에 확장된 캡션의 구절들을 오브젝트 영역으로써 표시할 수 있고, 이때, 각 오브젝트 영역들은 다른 색으로 표시될 수 있다. 또한, 시각화 모델(234)은 각 오브젝트 영역들과 대응되는 확장된 캡션의 구절들을, 해당하는 오브젝트 영역과 동일한 색으로 표시함으로써 시각화할 수 있다.The visualization model 234 may display phrases of the extended caption on the image as object areas, and in this case, each object area may be displayed in a different color. Also, the visualization model 234 may visualize the phrases of the extended caption corresponding to each object area by displaying the phrases in the same color as the corresponding object area.
도 8은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 방법을 나타내는 도면이다.8 is a diagram illustrating a method for automatically generating image captions according to an embodiment of the present invention.
도 8을 참조하면, 캡션 생성 모듈(210)은 제공된 이미지의 속성 정보 및 오브젝트 정보를 추출하고, 추출한 이미지의 속성 정보 및 오브젝트 정보를 반영하여 캡션을 생성할 수 있다(S100).Referring to FIG. 8 , the caption generating module 210 may extract attribute information and object information of a provided image, and generate a caption by reflecting attribute information and object information of the extracted image ( S100 ).
캡션 생성 모듈(210)은 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 추출한 속성 정보 및 오브젝트 정보를 이용하여 캡션을 생성할 수 있다. 여기서, 속성 정보는 이미지와 관련된 단어들일 수 있고, 오브젝트 정보는 제공받은 이미지의 핵심 대상일 수 있다. 여기서, 캡션 생성 모듈(210)은 딥 러닝을 통해 학습된 이미지 및 각 이미지에 대한 캡션들을 기초로 제공된 이미지의 캡션을 생성할 수 있다.The caption generation module 210 may extract attribute information and object information in the image, and generate a caption using the extracted attribute information and object information. Here, the attribute information may be words related to an image, and the object information may be a core target of the provided image. Here, the caption generating module 210 may generate a caption of the provided image based on the image learned through deep learning and captions for each image.
관계 생성 모듈(220)은 이미지 내 오브젝트들 사이의 관계를 예측하고, 예측된 관계들에 대한 투플 집합을 생성할 수 있다(S200). 관계 생성 모듈(220)은 이미지 내 오브젝트들 사이의 관계를 (제1명사, 서술어, 제2명사)로 구성되는 투플 집합으로 나타낼 수 있다.The relationship generating module 220 may predict a relationship between objects in an image and generate a tuple set for the predicted relationships ( S200 ). The relationship generating module 220 may represent a relationship between objects in an image as a tuple set consisting of (a first noun, a predicate, and a second noun).
설명 생성 모듈(230)은 캡션 생성 모듈(210)에서 생성한 캡션과 관계 생성 모듈(220)에서 생성한 투플 집합을 이용하여 확장된 캡션을 생성할 수 있다(S300). 설명 생성 모듈(230)은 투플 집합을 문장으로 변환하고, 이를 캡션에 반영함으로써, 캡션을 확장시킬 수 있다.The description generating module 230 may generate an extended caption using the caption generated by the caption generating module 210 and the tuple set generated by the relationship generating module 220 ( S300 ). The description generating module 230 may expand the caption by converting the tuple set into a sentence and reflecting it in the caption.
설명 생성 모듈(230)은 확장된 캡션 및 오브젝트들 사이의 관계를 그래프로 나타내어 시각화할 수 있다(S400). 설명 생성 모듈(230)은 확장된 캡션 및 오브젝트들 사이의 관계를 매칭하여 그래프를 생성할 수 있다. 설명 생성 모듈(230)은 생성한 그래프를 클라이언트(100)로 전송하여 사용자가 확장된 캡션이 생성된 근거를 확인할 수 있도록 할 수 있다. The description generating module 230 may visualize the relationship between the extended caption and the objects as a graph (S400). The description generating module 230 may generate a graph by matching the extended caption and the relationship between the objects. The description generating module 230 may transmit the generated graph to the client 100 so that the user can check the basis for generating the expanded caption.
도 9은 본 발명의 실시 예에 따른 캡션을 생성하는 방법을 나타내는 도면이다. 9 is a diagram illustrating a method of generating a caption according to an embodiment of the present invention.
도 9를 참조하면, 속성 추출 모델(212)은 이미지의 속성 정보를 추출할 수 있다(S110). 여기서, 속성 추출 모델(212)은 이미지 및 이미지에 대한 캡션이 학습되어 있을 수 있다. 이에 따라, 속성 추출 모델(212)은 학습된 정보들을 이용하여 새로운 이미지와 관련된 속성 정보를 출력할 수 있다.Referring to FIG. 9 , the attribute extraction model 212 may extract attribute information of an image ( S110 ). Here, the attribute extraction model 212 may be trained on an image and a caption for the image. Accordingly, the attribute extraction model 212 may output attribute information related to a new image by using the learned information.
오브젝트 인식 모델(214)은 이미지 내 중요 오브젝트를 추출하고, 추출된 오브젝트를 포함하는 오브젝트 영역을 투플 형태로 변환할 수 있다(S120). 오브젝트 인식 모델(214)은 Mask R-CNN 알고리즘 등과 같은 딥 러닝 기반 오브젝트 인식 모델을 활용하여 제공된 이미지 내의 미리 정의된 오브젝트 영역에 해당하는 영역들을 제공된 이미지의 오브젝트 영역으로써, 추출할 수 있다.The object recognition model 214 may extract an important object in the image and convert the object region including the extracted object into a tuple form (S120). The object recognition model 214 may utilize a deep learning-based object recognition model, such as a Mask R-CNN algorithm, to extract regions corresponding to a predefined object region in the provided image as an object region of the provided image.
이미지 캡션 모델(216)은 제공된 이미지에서 추출한 속성 정보 및 오브젝트 영역에 대해 단어 주의도 및 영역 주의도를 부여할 수 있다(S130). 이미지 캡션 모델(216)은 현재 시간에 생성한 단어 태그와 관련성이 높은 단어 순서로 단어 주의도를 부여할 수 있다. 여기서, 단어 주의도 및 영역 주의도는 0 내지 1 사이의 값이며, 단어 태그와 관련성이 높을수록 1에 인접할 수 있다.The image caption model 216 may give word attention and region attention to attribute information and object regions extracted from the provided image ( S130 ). The image caption model 216 may give word attention to a word tag generated at the current time and a word order with high relevance. Here, the word attention degree and the area attention degree are values between 0 and 1, and may be closer to 1 as the relevance to the word tag increases.
이미지 캡션 모델(216)은 속성 추출 모델(212)에서 추출된 속성 정보, 오브젝트 인식 모델(214)에서 추출된 오브젝트 영역, 단어 주의도 및 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 예측할 수 있다(S140). 이미지 캡션 모델(216)은 예측한 단어 태그 및 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어 태그 및 문법 태그에 대한 손실값을 각각 계산할 수 있다.The image caption model 216 includes the attribute information extracted from the attribute extraction model 212, the object region extracted from the object recognition model 214, word tags for captions, and word tags for each time step based on word attention and region attention. A grammar tag may be predicted (S140). The image caption model 216 may calculate loss values for the word tag and the grammar tag generated by comparing the predicted word tag and the grammar tag with the correct caption sentence, respectively.
이미지 캡션 모델(216)은 단어 태그 및 문법 태그에 대한 손실값들을 반영하여 캡션을 생성할 수 있다(S150). 이에 따라, 이미지 캡션 모델(216)은 단어 태그 및 문법 태그를 이용하여 제공된 이미지에 대해 문법이 고려된 캡션 문장을 생성할 수 있고, 이를 학습할 수 있다.The image caption model 216 may generate a caption by reflecting the loss values for the word tag and the grammar tag (S150). Accordingly, the image caption model 216 may generate a caption sentence in which the grammar is considered for the provided image by using the word tag and the grammar tag, and may learn it.
도 10은 본 발명의 실시 예에 따른 확장된 캡션을 생성하는 방법을 나타내는 도면이다. 10 is a diagram illustrating a method of generating an extended caption according to an embodiment of the present invention.
도 10을 참조하면, 설명 생성 모듈(210)은 관계 생성 모듈(220)에서 생성된 투플 집합들 중에서 캡션 생성 모듈(210)에서 생성된 캡션에 포함되는 투플 집합들을 제거할 수 있다(S310). 여기서, 투플 집합을 제거하는 것은 투플 집합 내 제1명사, 제2명사, 서술어가 캡션 생성 모듈(210)에서 생성된 캡션에 모두 포함되면 중복 투플 집합으로 판단하여 이 중복 투플 집합을 삭제할 수 있다.Referring to FIG. 10 , the description generating module 210 may remove tuple sets included in the caption generated by the caption generating module 210 from among the tuple sets generated by the relationship generating module 220 ( S310 ). Here, when the first noun, the second noun, and the predicate in the tuple set are all included in the caption generated by the caption generating module 210 to remove the tuple set, it is determined as a duplicate tuple set and the duplicate tuple set can be deleted.
설명 생성 모듈(210)은 중복 투플 집합을 제거하고 남은 투플 집합들을 문장 형식으로 변환할 수 있다(S320). 여기서, 설명 생성 모듈(210)은 투플 집합의 서술어가 전치사인 경우 제1명사 - 전치사 - 제2명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다. 반면, 설명 생성 모듈(210)은 투플 집합의 서술어가 동사인 경우 제2명사 - 동사 - 제1명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다.The description generating module 210 may remove the duplicate tuple set and convert the remaining tuple sets into a sentence format (S320). Here, when the predicate of the tuple set is a preposition, the description generating module 210 may convert it into a sentence form by listing the first noun - the preposition - the second noun in the order. On the other hand, when the predicate of the tuple set is a verb, the description generating module 210 may convert it into a sentence form by listing the second noun - the verb - the first noun in the order.
설명 생성 모듈(210)은 투플 집합들이 변환된 문장을 캡션에 반영할 수 있다(S330). 이후, 변환된 문장이 반영된 캡션(확장된 캡션)을 정답 캡션과 비교하여 스코어를 계산하고, 가장 큰 스코어를 갖는 구절을 선택할 수 있다. 문장 재구조화 모델(232)은 투플 집합을 문장 형식으로 변환 - 캡션에 적용 - 가장 큰 스코어를 갖는 구절 선택하는 방식을 통해 더 이상 남은 투플 집합이 없을때까지 반복할 수 있다. 이후, 설명 생성 모듈(210)은 마지막에 선택된 구절을 최종 확장된 캡션으로서 선택할 수 있다.The description generating module 210 may reflect the converted sentence of the tuple sets in the caption (S330). Thereafter, a score may be calculated by comparing the caption (extended caption) in which the converted sentence is reflected with the correct caption, and a phrase having the highest score may be selected. The sentence restructuring model 232 may iterate until there are no more tuples sets remaining through a method of converting the tuple set into a sentence form - applying it to the caption - and selecting the phrase having the highest score. Thereafter, the description generating module 210 may select the last selected phrase as the final extended caption.
설명 생성 모듈(210)은 문장 재구조화 모델(232)에서 확장시킨 캡션을 투플 집합과 매칭하여 시각화할 수 있다(S340). 설명 생성 모듈(210)은 확장된 캡션을 투플 집합과 매칭하여 투플 집합의 관계를 나타내는 그래프를 생성할 수 있다. 또한, 시각화 모델(234)은 생성한 투플 집합의 관계를 나타내는 그래프를 클라이언트(100)로 전송하여 사용자가 확장된 캡션이 생성된 근거를 확인할 수 있도록 할 수 있다. The description generating module 210 may visualize the caption extended in the sentence restructuring model 232 by matching it with the tuple set (S340). The description generating module 210 may generate a graph representing the relationship of the tuple set by matching the extended caption with the tuple set. In addition, the visualization model 234 may transmit a graph representing the relationship between the generated tuple set to the client 100 so that the user can check the basis for generating the expanded caption.
전술한 바와 같이, 본 발명의 실시 예에 따르면 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법을 제공할 수 있다.As described above, according to an embodiment of the present invention, a caption is generated by extracting attribute information and object information in an image using deep learning, and the generated caption is restructured by predicting a relationship between object information. Automated generation systems and methods may be provided.
본 발명이 속하는 기술 분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Those skilled in the art to which the present invention pertains should understand that the present invention may be embodied in other specific forms without changing the technical spirit or essential characteristics thereof, so the embodiments described above are illustrative in all respects and not restrictive. only do The scope of the present invention is indicated by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. .

Claims (13)

  1. 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 시스템에 있어서.A caption automatic generating system for automatically generating a caption describing an image.
    이미지를 제공하는 클라이언트 장치; 및the client device providing the image; and
    상기 클라이언트 장치로부터 제공받은 이미지를 분석하여 상기 이미지를 설명하는 캡션을 생성하고, 상기 생성한 캡션 및 상기 캡션을 생성한 근거를 상기 클라이언트 장치로 전송하는 캡션 생성기;를 포함하는 이미지 캡션 자동 생성 시스템.and a caption generator that analyzes the image provided from the client device to generate a caption describing the image, and transmits the generated caption and a reason for generating the caption to the client device.
  2. 제1항에 있어서,According to claim 1,
    상기 캡션 생성기는,The caption generator is
    딥 러닝을 이용하여 상기 제공받은 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 상기 속성 정보 및 상기 오브젝트 정보를 이용하여 상기 캡션을 생성하는 캡션 생성 모듈;a caption generating module extracting attribute information and object information in the provided image using deep learning, and generating the caption using the attribute information and the object information;
    상기 이미지 내 오브젝트들 사이의 관계를 예측하고, 상기 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하는 관계 생성 모듈; 및a relationship generating module that predicts a relationship between objects in the image and generates a tuple set in which the predicted relationships are structured in a tuple form; and
    상기 캡션 생성 모듈에서 생성한 캡션 및 상기 관계 생성 모듈에서 생성한 상기 투플 집합을 이용하여 상기 캡션을 재구조화여 확장된 캡션을 생성하고, 상기 확장된 캡션 및 상기 투플 집합에 대한 그래프를 시각화하는 설명 생성 모듈;을 포함하는 이미지 캡션 자동 생성 시스템.Description of generating an extended caption by restructuring the caption using the caption generated by the caption generation module and the tuple set generated by the relationship generation module, and visualizing a graph for the expanded caption and the tuple set Image caption automatic generation system comprising a generation module.
  3. 제2항에 있어서,3. The method of claim 2,
    상기 캡션 생성 모듈은,The caption generation module,
    상기 제공받은 이미지와 가장 관련된 단어들을 추출하고, 각 단어들을 투플 형태로 변환하는 속성 추출 모델;an attribute extraction model for extracting words most related to the provided image and converting each word into a tuple form;
    상기 이미지 내 중요 오브젝트들을 추출하고, 상기 추출된 오브젝트들을 포함하는 오브젝트 영역을 투플 형태로 변환하는 오브젝트 인식 모델;an object recognition model for extracting important objects in the image and converting an object region including the extracted objects into a tuple form;
    상기 속성 추출 모델에서 추출한 단어들 및 상기 오브젝트 인식 모델에서 추출한 오브젝트 영역을 이용하여 상기 이미지의 캡션을 생성하는 이미지 캡션 모델;을 포함하는 이미지 캡션 자동 생성 시스템.and an image caption model for generating a caption of the image by using the words extracted from the attribute extraction model and the object region extracted from the object recognition model.
  4. 제2항에 있어서,3. The method of claim 2,
    상기 이미지 캡션 모델은 딥 러닝 알고리즘으로 수행되며, RNN(Recurrent neural network)을 기반으로 수행되며, 상기 이미지 내 오브젝트들 사이의 관계를 시계열적으로 예측하는 이미지 캡션 자동 생성 시스템.The image caption model is performed by a deep learning algorithm, is performed based on a recurrent neural network (RNN), and an automatic image caption generation system for predicting a relationship between objects in the image in time series.
  5. 제3항에 있어서,4. The method of claim 3,
    상기 이미지 캡션 모델은,The image caption model is,
    상기 속성 추출 모델에서 추출한 단어들에 대해 단어 주의도(attention score)를 부여하는 속성 주의 모델;an attribute attention model for giving an attention score to words extracted from the attribute extraction model;
    상기 오브젝트 인식 모델에서 추출한 오브젝트의 영역들에 대해 영역 주의도를 부여하는 오브젝트 주의 모델;an object attention model for giving a degree of area attention to areas of the object extracted from the object recognition model;
    상기 이미지 및 상기 이미지의 캡션에 대한 문장의 문법을 학습하는 문법 학습 모델; 및a grammar learning model for learning a grammar of a sentence for the image and the caption of the image; and
    상기 속성 추출 모델에서 추출된 단어들, 상기 오브젝트 인식 모델에서 추출된 오브젝트 영역들, 상기 단어 주의도 및 상기 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 생성하는 언어 생성 모델;을 포함하는 이미지 캡션 자동 생성 시스템.A language generation model for generating word tags and grammar tags for captions at each time step based on the words extracted from the attribute extraction model, the object regions extracted from the object recognition model, the word attention level, and the area attention level Image caption automatic generation system containing ;.
  6. 제5항에 있어서,6. The method of claim 5,
    상기 속성 주의 모델은 상기 언어 생성 모델에서 생성한 단어 태그와 관련성이 높은 단어 순서로 상기 단어 주의도를 부여하고,The attribute attention model gives the word attention in the order of words having high relevance to the word tag generated by the language generation model,
    상기 오브젝트 주의 모델은 상기 언어 생성 모델에서 생성한 단어 태그와 관련성이 높은 단어 순서로 상기 영역 주의도를 부여하고,The object attention model gives the region attention in the order of words that are highly related to the word tags generated by the language generation model,
    상기 단어 주의도 및 상기 영역 주의도는 0 내지 1 사이의 값이며, 상기 단어 태그와 관련성이 높을수록 1에 인접한 이미지 캡션 자동 생성 시스템.The word attention degree and the area attention degree are values between 0 and 1, and the higher the relevance to the word tag, the closer to 1 the image caption automatically generating system.
  7. 제2항에 있어서,3. The method of claim 2,
    상기 관계 생성 모듈은, The relationship creation module,
    상기 제공된 이미지 내 중요한 오브젝트 영역들을 추출하는 오브젝트 인식 모델; 및an object recognition model for extracting important object regions in the provided image; and
    상기 추출된 영역들간의 관계를 예측하고, 상기 예측한 영역들간의 관계를 투플 형태로 구조화하여 투플 집합을 생성하는 관계 예측 모델; 및a relationship prediction model for predicting a relationship between the extracted regions and structuring the relationship between the predicted regions in a tuple form to generate a tuple set; and
    상기 생성된 투플 집합에 대해 하나의 그래프를 생성하는 관계 그래프 생성 모델;을 포함하는 이미지 캡션 자동 생성 시스템.An automatic image caption generation system comprising a; a relation graph generation model for generating one graph for the generated tuple set.
  8. 제7항에 있어서,8. The method of claim 7,
    상기 설명 생성 모듈은,The description generating module,
    상기 캡션 생성 모듈에서 생성된 캡션 및 관계 생성 모듈에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 상기 생성된 캡션을 확장시키는 문장 재구조화 모델; 및a sentence restructuring model that replaces some words with phrases for tuples according to an algorithm using the captions generated by the caption generation module and the tuple set generated by the relationship generation module, and expands the generated caption; and
    상기 문장 재구조화 모델에서 확장시킨 캡션을 상기 투플 정보와 매칭하여 시각화하는 시각화 모델;을 포함하는 이미지 캡션 자동 생성 시스템.A visualization model for visualizing the caption extended in the sentence restructuring model by matching it with the tuple information; and an automatic image caption generation system.
  9. 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 방법에 있어서,A caption automatic generation method for automatically generating a caption describing an image for an image, the method comprising:
    캡션 생성 모듈에서 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 상기 속성 정보 및 상기 오브젝트 정보를 이용하여 상기 캡션을 생성하는 단계;extracting attribute information and object information from an image by using deep learning in a caption generating module, and generating the caption using the attribute information and the object information;
    관계 생성 모듈에서 상기 이미지 내 오브젝트들 사이의 관계를 예측하고, 상기 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하는 단계; 및predicting a relationship between objects in the image in a relationship generating module, and generating a tuple set in which the predicted relationships are structured in a tuple form; and
    설명 생성 모듈에서 상기 생성한 캡션 및 상기 투플 집합을 이용하여 상기 캡션을 재구조화여 확장된 캡션을 생성하고, 상기 확장된 캡션 및 상기 투플 집합에 대한 그래프를 시각화하는 단계;를 포함하는 이미지 캡션 자동 생성 방법.Image caption automatic including; generating an extended caption by restructuring the caption using the generated caption and the tuple set in the description generating module, and visualizing a graph for the extended caption and the tuple set How to create.
  10. 제9항에 있어서, 상기 캡션을 생성하는 단계는, The method of claim 9, wherein the generating of the caption comprises:
    상기 캡션 생성 모듈에서 상기 이미지와 가장 관련된 단어들을 추출하고, 각 단어들을 투플 형태로 변환하는 단계;extracting words most related to the image in the caption generating module and converting each word into a tuple form;
    오브젝트 인식 모델에서 상기 이미지 내 중요 오브젝트들을 추출하고, 상기 추출된 오브젝트들을 포함하는 오브젝트 영역을 투플 형태로 변환하는 단계; 및extracting important objects in the image from an object recognition model, and converting an object region including the extracted objects into a tuple form; and
    이미지 캡션 모델에서 상기 추출한 단어들 및 상기 추출한 오브젝트 영역을 이용하여 상기 이미지의 캡션을 생성하는 단계;를 포함하는 이미지 캡션 자동 생성 방법.and generating a caption of the image by using the extracted words and the extracted object region from an image caption model.
  11. 제10항에 있어서, 상기 이미지의 캡션을 생성하는 단계에 있어서,11. The method of claim 10, wherein generating a caption of the image comprises:
    상기 이미지 캡션 모델에서 추출한 단어들에 대해 단어 주의도(attention score)를 부여하는 단계;assigning an attention score to the words extracted from the image caption model;
    상기 이미지 캡션 모델에서 추출한 오브젝트 영역들에 대해 영역 주의도를 부여하는 단계; 및assigning region attention to the object regions extracted from the image caption model; and
    상기 이미지 캡션 모델에서 추출된 단어들, 오브젝트 영역들, 상기 단어 주의도 및 상기 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 생성하는 단계;를 더 포함하는 이미지 캡션 자동 생성 방법.generating word tags and grammar tags for captions for each time step based on the words, object regions, the word attention level, and the area attention level extracted from the image caption model; Way.
  12. 제9항에 있어서, 상기 투플 집합을 생성하는 단계는,10. The method of claim 9, wherein generating the tuple set comprises:
    오브젝트 인식 모델에서 상기 이미지 내 중요한 오브젝트 영역들을 추출하는 단계;extracting important object regions in the image from an object recognition model;
    관계 예측 모델에서 상기 추출된 영역들간의 관계를 예측하고, 상기 예측한 영역들간의 관계를 투플 형태로 구조화하여 투플 집합을 생성하는 단계; 및predicting a relationship between the extracted regions in a relationship prediction model, and structuring the relationship between the predicted regions in a tuple form to generate a tuple set; and
    관계 그래프 생성 모델에서 상기 생성된 투플 집합에 대해 하나의 그래프를 생성하는 단계;를 더 포함하는 이미지 캡션 자동 생성 방법.The method of automatically generating image captions further comprising; generating one graph for the generated tuple set in the relation graph generation model.
  13. 제9항에 있어서, 상기 투플 집합에 대한 그래프를 시각화하는 단계는,10. The method of claim 9, wherein visualizing the graph for the tuple set comprises:
    문장 재구조화 모델에서 상기 생성된 캡션 및 관계 생성 모듈에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 상기 생성된 캡션을 확장시키는 단계; 및replacing some words with phrases for tuples according to an algorithm using the generated caption and the tuple set generated in the relationship generating module in the sentence restructuring model, and expanding the generated caption; and
    시각화 모델에서 상기 확장시킨 캡션을 상기 투플 정보와 매칭하여 시각화하는 단계;를 더 포함하는 이미지 캡션 자동 생성 방법.Visualizing the expanded caption in a visualization model by matching it with the tuple information; the automatic image caption generation method further comprising a.
PCT/KR2020/017272 2020-11-30 2020-11-30 System and method for automatically generating image caption by using image object attribute-oriented model based on deep learning algorithm WO2022114322A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/017272 WO2022114322A1 (en) 2020-11-30 2020-11-30 System and method for automatically generating image caption by using image object attribute-oriented model based on deep learning algorithm

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/017272 WO2022114322A1 (en) 2020-11-30 2020-11-30 System and method for automatically generating image caption by using image object attribute-oriented model based on deep learning algorithm

Publications (1)

Publication Number Publication Date
WO2022114322A1 true WO2022114322A1 (en) 2022-06-02

Family

ID=81755158

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/017272 WO2022114322A1 (en) 2020-11-30 2020-11-30 System and method for automatically generating image caption by using image object attribute-oriented model based on deep learning algorithm

Country Status (1)

Country Link
WO (1) WO2022114322A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200065A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision
KR101996371B1 (en) * 2018-02-22 2019-07-03 주식회사 인공지능연구원 System and method for creating caption for image and computer program for the same
KR20200104663A (en) * 2019-02-27 2020-09-04 한국전력공사 System and method for automatic generation of image caption
KR20200106115A (en) * 2019-02-27 2020-09-11 한국전력공사 Apparatus and method for automatically generating explainable image caption
WO2020190112A1 (en) * 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200065A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision
KR101996371B1 (en) * 2018-02-22 2019-07-03 주식회사 인공지능연구원 System and method for creating caption for image and computer program for the same
KR20200104663A (en) * 2019-02-27 2020-09-04 한국전력공사 System and method for automatic generation of image caption
KR20200106115A (en) * 2019-02-27 2020-09-11 한국전력공사 Apparatus and method for automatically generating explainable image caption
WO2020190112A1 (en) * 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data

Similar Documents

Publication Publication Date Title
WO2019168253A1 (en) Interactive counseling chatbot device and method for hierarchically understanding user's expression and generating answer
WO2011136425A1 (en) Device and method for resource description framework networking using an ontology schema having a combined named dictionary and combined mining rules
WO2021215620A1 (en) Device and method for automatically generating domain-specific image caption by using semantic ontology
KR102622958B1 (en) System and method for automatic generation of image caption
WO2012060540A1 (en) Machine translation device and machine translation method in which a syntax conversion model and a vocabulary conversion model are combined
WO2020111314A1 (en) Conceptual graph-based query-response apparatus and method
WO2014106979A1 (en) Method for recognizing statistical voice language
WO2021096009A1 (en) Method and device for supplementing knowledge on basis of relation network
WO2020085663A1 (en) Artificial intelligence-based automatic logo generation system, and logo generation service method using same
WO2021071137A1 (en) Method and system for automatically generating blank-space inference questions for foreign language sentence
WO2020262788A1 (en) System and method for natural language understanding
WO2011162444A1 (en) Named entity dictionary combined with ontology schema and device and method for renewing named entity dictionary or mining rule database using mining rule
WO2021107449A1 (en) Method for providing knowledge graph-based marketing information analysis service using conversion of transliterated neologisms and apparatus therefor
WO2014142422A1 (en) Method for processing dialogue based on processing instructing expression and apparatus therefor
KR20200037077A (en) Method, apparatus, device and computer readable medium for generating vqa training data
WO2019107625A1 (en) Machine translation method and apparatus therefor
WO2022114322A1 (en) System and method for automatically generating image caption by using image object attribute-oriented model based on deep learning algorithm
WO2022114368A1 (en) Method and device for completing knowledge through neuro-symbolic-based relation embedding
WO2021107445A1 (en) Method for providing newly-coined word information service based on knowledge graph and country-specific transliteration conversion, and apparatus therefor
WO2023167496A1 (en) Method for composing music by using artificial intelligence
WO2021256578A1 (en) Apparatus and method for automatically generating image caption
WO2023018150A1 (en) Method and device for personalized search of visual media
WO2022177372A1 (en) System for providing tutoring service by using artificial intelligence and method therefor
WO2018169276A1 (en) Method for processing language information and electronic device therefor
WO2023013826A1 (en) Foreign language phrase learning system based on basic sentence pattern unit segmentation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20963716

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20963716

Country of ref document: EP

Kind code of ref document: A1