WO2020159036A1 - Electronic device generating caption information for video sequence and operation method thereof - Google Patents

Electronic device generating caption information for video sequence and operation method thereof Download PDF

Info

Publication number
WO2020159036A1
WO2020159036A1 PCT/KR2019/013609 KR2019013609W WO2020159036A1 WO 2020159036 A1 WO2020159036 A1 WO 2020159036A1 KR 2019013609 W KR2019013609 W KR 2019013609W WO 2020159036 A1 WO2020159036 A1 WO 2020159036A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
feature
feature information
images
image sequence
Prior art date
Application number
PCT/KR2019/013609
Other languages
French (fr)
Korean (ko)
Inventor
김경수
김준모
김병주
박민석
이시행
이예강
이재영
Original Assignee
삼성전자주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190060221A external-priority patent/KR20200094607A/en
Application filed by 삼성전자주식회사, 한국과학기술원 filed Critical 삼성전자주식회사
Publication of WO2020159036A1 publication Critical patent/WO2020159036A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Definitions

  • the present disclosure relates to an electronic device generating caption information for a video sequence and a method of operating the same.
  • the Artificial Intelligence (AI) system is a computer system that realizes human-level intelligence, and unlike the existing Rule-based smart system, the machine learns, judges, and becomes intelligent. As the AI system is used, the recognition rate is improved and the user's taste can be understood more accurately, and the existing Rule-based smart system is gradually being replaced by the deep learning-based AI system.
  • Machine learning Deep learning
  • elemental technologies utilizing machine learning.
  • Machine learning is an algorithm technology that classifies/learns the characteristics of input data by itself
  • element technology is a technology that simulates functions such as cognition and judgment of the human brain by using machine learning algorithms such as deep learning. It consists of technical fields such as understanding, reasoning/prediction, knowledge expression, and motion control.
  • Linguistic understanding is a technology that recognizes and applies/processes human language/characters, and includes natural language processing, machine translation, conversation system, question and answer, speech recognition/synthesis, etc.
  • Visual understanding is a technology that recognizes and processes objects as human vision, and includes object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image improvement.
  • Inference prediction is a technique for logically inferring and predicting information by determining information, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendation.
  • Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge building (data generation/classification), knowledge management (data utilization), and so on.
  • Motion control is a technique for controlling autonomous driving of a vehicle and movement of a robot, and includes motion control (navigation, collision, driving), operation control (behavior control), and the like.
  • the video captioning technique is a technique for generating sentences describing scenes of an image sequence. According to the video captioning technique, based on the above-described artificial intelligence system, an optimal sentence describing scenes of an image sequence can be generated.
  • the user can easily recognize the contents of the video sequence without directly viewing the video sequence of a considerable length through the sentence generated by the video captioning technology.
  • the text generated by the video captioning technology may be utilized in various fields, such as classifying or recognizing an image sequence, as it includes text compressively representing the contents of the image sequence.
  • the problem to be solved by the present disclosure is to solve the above-described problem, and to provide an electronic device generating caption information for an image sequence and an operation method thereof.
  • FIG. 1 is a diagram illustrating an example of generating caption information of an image sequence according to an embodiment.
  • FIG. 2 is a block diagram illustrating an example of an electronic device 1000 that generates caption information for an image sequence according to an embodiment.
  • FIG. 3 is a diagram illustrating an example of a method in which a non-regional feature extraction unit acquires second feature information according to an embodiment.
  • FIG. 4 is a block diagram illustrating an example of an electronic device 1000 that generates caption information for an image sequence according to an embodiment.
  • FIG. 5 is a block diagram illustrating an internal configuration of an electronic device according to an embodiment.
  • FIG. 6 is a block diagram illustrating an internal configuration of an electronic device according to an embodiment.
  • FIG. 7 is a flowchart illustrating a method of generating caption information for an image sequence according to an embodiment.
  • a first aspect of the present disclosure is a method of generating caption information for an image sequence in an electronic device, wherein a plurality of images included in the image sequence are Obtaining; Extracting feature information for each of the plurality of images; Obtaining first feature information regarding features of the image sequence by sequentially processing the extracted feature information according to the order of the plurality of images; Obtaining second feature information on features of the image sequence determined based on at least one similarity between the extracted feature information; And generating caption information for the video sequence based on the first feature information and the second feature information.
  • an electronic device generating caption information for an image sequence includes: a memory for storing a plurality of images included in the image sequence; Feature information is extracted for each of the plurality of images, and the extracted feature information is sequentially processed according to the order of the plurality of images to obtain first feature information regarding features of the image sequence, and the extracted Acquire second feature information regarding the feature of the image sequence determined based on at least one similarity between feature information, and obtain caption information for the image sequence based on the first feature information and the second feature information.
  • a third aspect of the present disclosure may provide a computer program product including a recording medium in which a program for performing the method of the first aspect or the second aspect is stored.
  • AI-related functions are operated through a processor and a memory.
  • the processor may be composed of one or more processors.
  • the one or a plurality of processors may be a general-purpose processor such as a CPU, an AP, or a digital signal processor (DSP), a graphic processor such as a GPU or a vision processing unit (VPU), or an artificial intelligence processor such as an NPU.
  • DSP digital signal processor
  • VPU vision processing unit
  • an artificial intelligence processor such as an NPU.
  • One or a plurality of processors are controlled to process input data according to predefined operation rules or artificial intelligence models stored in the memory.
  • the AI-only processors may be designed with a hardware structure specialized for processing a specific AI model.
  • the predefined motion rules or artificial intelligence models are characterized by being created through learning.
  • the basic artificial intelligence model is learned using a plurality of training data by a learning algorithm, thereby creating a predefined operation rule or artificial intelligence model set to perform a desired characteristic (or purpose). It means Jim.
  • Such learning may be performed on a device on which artificial intelligence according to the present disclosure is performed, or may be performed through a separate server and/or system. Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but are not limited to the examples described above.
  • the artificial intelligence model may be composed of a plurality of neural network layers.
  • Each of the plurality of neural network layers has a plurality of weight values and performs a neural network operation through calculation between a result of calculation of a previous layer and a plurality of weights.
  • the plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated such that a loss value or a cost value obtained from the artificial intelligence model is reduced or minimized during the learning process.
  • the artificial neural network may include a deep neural network (DNN), for example, a convolutional neural network (CNN), a deep neural network (DNN), a recurrent neural network (RNN), a restricted boltzmann machine (RBM), There are Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN) or Deep Q-Networks, but are not limited to the above-described examples.
  • DNN Deep neural network
  • CNN convolutional neural network
  • DNN deep neural network
  • RNN restricted boltzmann machine
  • DNN Deep Belief Network
  • BBDNN Bidirectional Recurrent Deep Neural Network
  • Deep Q-Networks Deep Q-Networks
  • FIG. 1 is a diagram illustrating an example of generating caption information of an image sequence according to an embodiment.
  • caption information 120 may be generated for an image sequence 110 including a plurality of images 111, 112, 113, 114, 115, and 116.
  • the caption information 120 may include information describing a scene of images included in the image sequence 110.
  • the caption information 120 may include information indicating one topic, encompassing images included in the image sequence 110.
  • caption information 120 generated for the image sequence 110 may be provided to the user so that the user can determine the approximate contents of the images included in the image sequence 110.
  • the caption information 120 generated according to an embodiment may be displayed on the electronic device 1000.
  • caption information 120 may be used to perform various processes related to the image sequence 110, such as classifying and recognizing the image sequence 110.
  • the caption information 120 of the image sequence 110 may be generated based on information on features of the image sequence 110.
  • Information about the features of the image sequence 110 may be generated based on the features of the images included in the image sequence 110.
  • information on the features of the image sequence 110 may be obtained by a learning model using feature information of images included in the image sequence 110 as an input.
  • the learning model described above may be trained so that feature information of the image sequence 110 suitable for generating caption information 120 from feature information of images included in the image sequence 110 can be obtained. have.
  • information on the features of the image sequence 110 may be obtained through various methods based on feature information of images included in the image sequence 110 as well as the method using the above-described learning model. Can.
  • the caption information 120 of the image sequence 110 is based on feature information of each of a plurality of images 111, 112, 113, 114, 115 and 116 included in the image sequence 110. Thus, it can be generated.
  • the feature information of the image is information representing the visual characteristics of the image, and may include, for example, histogram information, edge information, brightness information, color distribution information, and shape information. Not limited to the above-described example, the feature information of the image may include various information representing the visual feature of the image.
  • the feature information of the image includes a result of recognizing the image by inputting various information about the image to the data recognition model, for example, various information representing the visual characteristics of the image. can do.
  • the result of recognizing the image may include, for example, information on an object recognized in the image, information on a position of the object recognized in the image, information on the motion of the object recognized in the image, and the like.
  • the recognition result of the image of the data recognition model may include “cat”.
  • the feature information of the image may include a “cat”, which is a result of recognition of the image.
  • the results of the image recognition by the data recognition model are not limited to the above-described examples, and may include various information representing characteristics of the image.
  • a data recognition model that can be used to obtain feature information of an image may be a convolutional neural network (CNN) used to classify and detect objects in the image.
  • CNN convolutional neural network
  • various types of data recognition models based on neural networks that can be used to acquire feature information of an image may be used.
  • feature information of the images included in the image sequence 110 is recognized by inputting various information representing visual characteristics of each image and information representing the visual characteristics into a data recognition model. It may include at least one of the information about the results.
  • the image sequence 110 may include a plurality of image frames, arranged in chronological order.
  • one video file may include a plurality of image sequences divided by scene or subject, and each image sequence may include a plurality of images.
  • a plurality of images included in the image sequence 110 may be still images.
  • a plurality of images for generating the caption information 110, corresponding to each time point (time point) set according to a predetermined time interval It may be a still image.
  • the plurality of images 111, 112, 113, 114, 115, and 116 are among a plurality of still images included in the image sequence 110, a plurality of images selected by various criteria or methods It may include a still image.
  • FIG. 2 is a block diagram illustrating an example of an electronic device 1000 that generates caption information for an image sequence 210 according to an embodiment.
  • the electronic device 1000 may be implemented as various types of devices capable of generating caption information 120 for the image sequence 110.
  • the electronic device 1000 described in the present specification includes a digital camera, a smart phone, a laptop computer, a tablet PC, an electronic book terminal, a terminal for digital broadcasting, and PDAs (Personal Digital Assistants). , PMP (Portable Multimedia Player), navigation, MP3 player, and the like, but is not limited thereto.
  • the electronic device 1000 described in this specification may be a wearable device. Wearable devices include accessory devices (e.g. watches, rings, cuff bands, ankle bands, necklaces, glasses, contact lenses), head-mounted devices (HMD), fabric or garment-integrated devices (e.g. Electronic clothing), a body-attached device (eg, a skin pad), or a bio-implantable device (eg, an implantable circuit).
  • accessory devices e.g. watches, rings, cuff bands, ankle bands, necklaces, glasses, contact lenses
  • HMD head-mounted devices
  • the image sequence 210 for generating caption information may include images 1 to 4 (231, 232, 233, 234).
  • the electronic device 1000 may generate caption information for the image sequence 210 based on the images 1 to 4 (231, 232, 233, and 234).
  • Images 1 to 4 (231, 232, 233, 234) according to an embodiment of the plurality of images included in the image sequence 210, in order to determine an image for generating caption information, a predetermined reference or method Accordingly, it can be selected. Further, the present invention is not limited to the above-described example, and all still images included in the image sequence 210 or still images randomly selected from all the still images may be used as images for generating caption information.
  • not only four images are used, but different numbers of images are used to generate caption information of the image sequence 210 according to the image sequence 210.
  • a large number of images included in the image sequence 210 may be used to generate caption information of the image sequence 210.
  • the electronic device 1000 is a configuration for generating caption information of the image sequence 210 according to an embodiment, and includes a local feature acquisition unit 220 and a non-local ) May include a feature acquiring unit 230, a coupling unit 240, and a caption generating unit 250.
  • each feature information extracted from a plurality of images included in the image sequence 210 is transmitted to the regional feature acquisition unit 220 and the non-regional feature acquisition unit 230, thereby resulting in the image sequence 210.
  • the first characteristic information and the second characteristic information regarding the characteristic of the may be respectively obtained.
  • the feature information of the images delivered to the regional feature acquiring unit 220 and the non-regional feature acquiring unit 230 includes various information representing visual characteristics of each image and information representing the visual characteristics.
  • each image may include at least one of information related to a recognized result.
  • the feature information for the image may include various types of information obtained from each image.
  • the regional feature acquisition unit 220 and the non-regional feature acquisition unit 230 may acquire first feature information and second feature information, respectively.
  • the first characteristic information and the second characteristic information represent characteristics of the image sequence 210 acquired in different ways by the regional feature acquisition unit 220 and the non-regional feature acquisition unit 230, respectively.
  • Information may be included in the regional feature acquisition unit 220 and the non-regional feature acquisition unit 230.
  • caption information may be generated based on the first characteristic information and the second characteristic information, which represent characteristics of the image sequence 210 obtained by different methods. Accordingly, according to an embodiment, more suitable caption information may be generated than when the caption information is generated based on the feature information of the image sequence 210 obtained in only one way.
  • the regional feature acquiring unit 220 may acquire first feature information regarding features of the image sequence 210 by sequentially processing feature information of each image in the order of the images.
  • the feature information of each image may be sequentially processed in the image order by the regional feature acquiring unit 220, so that processing for acquiring features of the image sequence 210 may be performed.
  • the regional feature acquiring unit 220 may include feature acquiring units 1 to 4 (221, 222, 223, 224), as illustrated in FIG. 2.
  • the regional feature acquisition unit 220, through the feature acquisition unit 1 to 4 (221, 222, 223, 224), through the image 1 to 4 (231, 232, 233, 234) extracted feature information of the image Based on the, first characteristic information about the image sequence 210 may be obtained.
  • the feature information extracted from the images 1 to 4 are sequentially acquired in the feature obtaining units 1 to 4 (221, 222, 223, 224) according to the order of each image, respectively.
  • first characteristic information about the image sequence 210 may be obtained.
  • feature information of each image may be sequentially processed, and a result output by the feature acquiring unit 4 224 may be used as first feature information for the image sequence 210.
  • the feature acquiring units 1 to 4 may process image information including a plurality of images by processing feature information for a plurality of images in consideration of order or temporal aspects ( 210) may use a data recognition model for acquiring feature information.
  • the data recognition models that can be used in the feature acquisition units 1 to 4 may be recurrent neural networks (RNN), long short term memory (LSTM), or the like.
  • the data recognition model may be, for example, a learning model for obtaining feature information of the image sequence 210 in consideration of the order of the images, as feature information of each image is sequentially input.
  • the data recognition model that can be used in the feature acquisition units 1 to 4 (221, 222, 223, 224) is not limited to the above-described examples, and may be various types of learning models.
  • the regional feature acquiring unit 220 including the feature acquiring units 1 to 4 (221, 222, 223, 224), is obtained in consideration of the order from the image 1 to the image 4, the image sequence ( 210), the first characteristic information indicating the characteristic for the first may be output.
  • the first feature information is determined as feature information for the image sequence 210 including the images 1 to 4 when the respective feature information of the images 1 to 4 is sequentially input to the data recognition model. Results may be included.
  • the result of the feature information for the image 1 recognized by the data recognition model may enter the input of the feature acquiring unit 2 (222).
  • the feature acquiring unit 2 222 may input the result of the feature acquiring unit 1 221 and the feature information on the image 2 as inputs, and output a result value through a data recognition model.
  • the feature acquiring unit 3 223 may input the result of the feature acquiring unit 2 222 and feature information on the image 3 as inputs, and output the result value through the data recognition model.
  • the feature acquiring unit 4 224 may input the result of the feature acquiring unit 3 223 and feature information on the image 4 as inputs, and output the result value through the data recognition model.
  • the result value output by the feature acquiring unit 4 224 may be transmitted to the combining unit 240 as first feature information.
  • the feature information of the images 1 to 4 may be sequentially processed by the regional feature acquiring unit 220 according to the order of each image, and as a result of processing, indicating characteristics of the image sequence 210
  • the first characteristic information can be output.
  • the processing is sequentially performed in the feature acquisition units 1 to 4 (221, 222, 223, 224), since the first feature information can be obtained, the image 1 (231) located at the front of the image sequence 210 The characteristic information of may be relatively less reflected in the first characteristic information.
  • the feature information of the last processed image 4 224 may be relatively reflected in the first feature information.
  • the sequential processing described above in the regional feature acquisition unit 220 may be performed. It can be performed as many times as many times as the number of images used to generate information.
  • the feature information of the images located in the front portion of the image sequence 210 may be hardly reflected in the first feature information by repeatedly processing.
  • the second feature information obtained without considering the order of the images is further used, so that feature information of images located in the front portion of the image sequence 210 is properly reflected. , Feature information of the image sequence 210 may be obtained.
  • the non-regional feature acquisition unit 230 may include a non-regional feature extraction unit 231 and a conversion unit 232.
  • the non-regional feature acquisition unit 230 is not limited to the above-described example, and may include only the non-regional feature extraction unit 231 without the conversion unit 232.
  • the non-regional feature acquiring unit 230 does not consider the order of the images 1 to 4 and based on the feature information of each image, the image sequence 210 It is possible to obtain second feature information regarding the feature of.
  • the non-regional feature extraction unit 231 does not consider the order of the images 1 to 4, and based on the similarity between the feature information of each image, the feature information for the image sequence 210 Can be extracted.
  • the non-regional feature acquiring unit 230 acquires similarity values for feature information of the image 1 231 and other images except the image 1 231, and the obtained similarity The sum of the weights of the values can be obtained. Also, in the case of the images 2 (232) to 4 (134), similarly to the image 1 (231), similarity values between feature information with other images are obtained, and a weighted sum of the obtained similarity values is obtained. Can. According to an embodiment, weight values applied to each similarity value may be determined as an optimal value by learning.
  • a weighted sum of similarity values may be respectively obtained.
  • feature information for each corresponding image may be corrected. Accordingly, feature information for each image may be corrected according to a similarity value with other images.
  • the second feature information may be obtained based on the modified feature information for each of the plurality of images.
  • the second feature information may be obtained by combining feature information corrected for each of a plurality of images based on similarity, through concatenation operation.
  • a representative value (eg, average value, median value, etc.) for feature values included in the modified feature information may be determined, and feature information including the determined representative value may be obtained as second feature information.
  • a representative value may be determined for feature values corresponding to each other among feature values included in the first feature information and the second feature information.
  • the second feature information according to an exemplary embodiment is not limited to the above-described example, and may be obtained through various methods, based on feature information modified according to similarity, for each of a plurality of images.
  • the conversion unit 232 may be configured to combine the second feature information obtained by the non-regional feature extraction unit 231 with the first feature information by the combining unit 240. Can be converted to.
  • the converter 232 adjusts the order of feature values included in the second feature information so that feature values corresponding to each other in the first feature information and the second feature information can be combined in parallel, A new feature value can be added to the second feature information.
  • the conversion unit 232 may convert the second characteristic information through various methods so that the first characteristic information and the second characteristic information can be combined.
  • the combining unit 240 combines the first characteristic information and the second characteristic information obtained from the regional feature acquisition unit 220 and the non-regional feature acquisition unit 230, respectively, to obtain an image sequence.
  • the characteristic information for 210 may be finally obtained.
  • the combining unit 240 may combine the first characteristic information and the second characteristic information with each other according to Equation 1 below.
  • Equation 1 h k and F (n out) is each of the first characteristic information and second means the characteristic information, and n 'is the feature information for the video sequence 210 is obtained finally in the engaging portion 240 Indicates.
  • n out is a value obtained by the non-regional feature extraction unit 231, and F( n out ), which is the result of processing n out by the conversion unit 232, may be transferred to the coupling unit 240.
  • a bold character means a vector, and may indicate that it has multiple values, such as a matrix.
  • a representative value (ex. average value, median value, etc.) for feature values corresponding to each other among feature values included in the first feature information and the second feature information may be determined by the combining unit 240, Feature information including the determined representative value may be obtained as feature information for the image sequence 210.
  • characteristic information on the image sequence 210 may be finally determined.
  • the feature information of the image located in the front portion of the image sequence 210 is also caption information of the image sequence 210 according to the similarity with other images It can be appropriately reflected in generating.
  • the caption generation unit 250 may generate caption information for the image sequence 210 according to feature information on the image sequence 210 determined by the combining unit 240.
  • the caption generator 250 may include a gated recurrent unit (GRU) capable of generating texts describing the image as input of feature information for a predetermined image.
  • GRU gated recurrent unit
  • the caption generation unit 250 may generate caption information for the image sequence 210 through various methods, not limited to the above-described example.
  • FIG 3 is a diagram illustrating an example of a method for the non-regional feature extraction unit 231 to obtain second feature information according to an embodiment.
  • n out may mean second feature information obtained by the non-regional feature extraction unit 231.
  • the non-regional feature extraction unit 231 acquires x 0 , x 1 , x 2 and x 3 as feature information of each image from images 1 to 4 (231, 232, 233, 234) can do.
  • i or j means identification information representing each image.
  • similarity between feature information of each image may be obtained as f(x i , x j ).
  • f is a pairwise function for obtaining similarity, and may be defined in various forms.
  • f(x 2 , x 0 ), f(x 2 , x 1 ), f(x 2 , x 2 ), f(x 2 , x 3 ) may be obtained as similarities to feature information between the image 3 233 and the images 1, 2, and 4 (231, 232, 234), respectively. Similarity of feature information with other images may be obtained for the remaining images 1, 2, and 4 (231, 232, 234) as well as the image 3 (233).
  • the similarity value obtained for each image may be applied with a weight g( x i ), which may be determined differently for each image, as shown in the example shown. Accordingly, as a result of performing the operation according to 231-1, y 2, which is a value calculated based on the similarity between images, may be obtained for the image 3 233.
  • the y i values for the images 1 to 4 (231, 232, 233, and 234), which can be calculated as 231-1, according to Equation 2 below, feature information of each image Based on the similarity value of the liver, it can be performed.
  • Equation 2 Means the similarity between the feature information of the images, Indicates a weight value that can be applied differently for each image.
  • y i is a value obtained based on the similarity to the image i, and n i indicating characteristic information about the image i obtained based on the similarity according to Equation 5 below may be obtained from y i .
  • Equation 2 And Can be expressed as Equation 3 below.
  • Equation 2 may be modified as Equation 4 below.
  • Reference numeral 231-2 of FIG. 3 is a configuration for applying residual connection to y i , which is a value obtained according to Equation 2 or 4, and may be expressed as Equation 5 below.
  • W g , W ⁇ , W ⁇ , and W z included in Equations 3, 4, and 5 respectively mean a weighting matrix that can be trained. Through the operation according to equation (5), each weight value can be learned in a better way.
  • the x i value which is characteristic information for the images 1 to 4 (231, 232, 233, 234) is based on the y i value, which is a value obtained based on similarity.
  • the y i value which is a value obtained based on similarity.
  • N i obtained by Equation 5 may be converted to n out , which is the second feature information described above, according to Equation 6 below.
  • n out is not limited to the method according to Equation 6, and can be obtained by combining the modified feature information for the images 1 to 4 (231, 232, 233, 234) through various methods.
  • n out is in the form of F( n out ) converted by the conversion unit 232, and represents the second characteristic information for the image sequence, and is transmitted to the combining unit 240, and may be combined with the first characteristic information.
  • FIG. 4 is a block diagram illustrating an example of an electronic device 1000 that generates caption information for an image sequence 210 according to an embodiment.
  • the non-regional feature acquisition unit 430 of FIG. 4 corresponds to the non-regional feature acquisition unit 230 of FIG. 2, but a value input to the non-regional feature acquisition unit 430 is different from that of FIG. 2. There is a difference in that the feature information is a value processed by the feature extraction units 1 to 4 (221, 222, 223, 224).
  • the non-regional feature acquisition unit 430 by the regional feature acquisition unit 220, to obtain the first feature information, features of the images 1 to 4 (231, 232, 233, 234)
  • the second feature information may be obtained based on the similarity between information obtained from each feature extracting unit 1 to 4 (221, 222, 223, 224).
  • feature information of each image is obtained by the feature extraction units 1 to 4 (221, 222, 223, 224) in order to acquire feature information of the image sequence 210. It can be processed sequentially.
  • the feature extraction unit 1 221 may output feature information of the image 1 to the non-regional feature acquisition unit 430.
  • the feature extraction unit 2 222 may output feature information of the image sequence 210, which is determined from the feature information of the image 1 and the feature information of the image 2, to the non-regional feature acquisition unit 430.
  • the feature extraction unit 3 223 may output feature information of the image sequence 210, which is determined from the result of the feature extraction unit 2 222 and the feature information of the image 3, to the non-regional feature acquisition unit 430.
  • the feature extraction unit 4 224 outputs feature information of the image sequence 210, which is determined from the result of the feature extraction unit 3 223 and the feature information of the image 4, to the non-regional feature acquisition unit 430.
  • the features input from the feature extraction units 1 to 4 (221, 222, 223, 224) Based on the similarity between the information, the second characteristic information can be obtained.
  • FIG. 5 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an embodiment.
  • FIG. 6 is a block diagram showing an internal configuration of the electronic device 1000 according to an embodiment.
  • the electronic device 1000 may include a memory 1700, a processor 1300, and an output unit 1200. However, not all of the components illustrated in FIG. 5 are essential components of the electronic device 1000.
  • the electronic device 1000 may be implemented by more components than those illustrated in FIG. 5, or the electronic device 1000 may be implemented by fewer components than those illustrated in FIG. 5.
  • the electronic device 1000 may include a user input unit 1100 in addition to the memory 1700, the processor 1300, and the output unit 1200, according to some embodiments. ), a sensing unit 1400, a communication unit 1500, and an A/V input unit 1600 may be further included.
  • the user input unit 1100 refers to a means for a user to input data for controlling the electronic device 1000.
  • the user input unit 1100 includes a key pad, a dome switch, and a touch pad (contact capacitive type, pressure resistive film type, infrared sensing type, surface ultrasonic conduction type, integral type) Tension measurement method, piezo effect method, etc.), a jog wheel, a jog switch, and the like, but are not limited thereto.
  • the user input unit 1100 may receive a user input for generating caption information for an image sequence.
  • the output unit 1200 may output an audio signal, a video signal, or a vibration signal, and the output unit 1200 may include a display unit 1210, an audio output unit 1220, and a vibration motor 1230. have.
  • the output unit 1200 may output information based on caption information generated for an image sequence. For example, the output unit 1200 may output text representing caption information of an image sequence, generated according to an embodiment. Further, the output unit 1200 may output information indicating a result of performing various operations based on text representing caption information of an image sequence, generated according to an embodiment.
  • the display unit 1210 displays and outputs information processed by the electronic device 1000. According to an embodiment, the display 1210 may display a result of generating caption information for an image sequence. Also, the display unit 1210 may display information indicating a result of performing various operations based on text representing caption information of an image sequence, generated according to an embodiment.
  • the display unit 1210 may be used as an input device in addition to an output device.
  • the display unit 1210 includes a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, and a three-dimensional display ( 3D display), and an electrophoretic display (electrophoretic display).
  • the electronic device 1000 may include two or more display units 1210.
  • the audio output unit 1220 outputs audio data received from the communication unit 1500 or stored in the memory 1700.
  • the vibration motor 1230 may output a vibration signal. Also, the vibration motor 1230 may output a vibration signal when a touch is input to the touch screen.
  • the processor 1300 typically controls the overall operation of the electronic device 1000.
  • the processor 1300 by executing programs stored in the memory 1700, the user input unit 1100, the output unit 1200, the sensing unit 1400, the communication unit 1500, the A/V input unit 1600 ) Etc. can be controlled overall.
  • the electronic device 1000 may include at least one processor 1300.
  • the processor 1300 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations.
  • the command may be provided to the processor 1300 from the memory 1700 or may be received through the communication unit 1500 and provided to the processor 1300.
  • the processor 1300 may be configured to execute instructions according to program code stored in a recording device such as memory.
  • the at least one processor 1300 may perform an operation for generating caption information for an image sequence.
  • At least one processor 1300 acquires first characteristic information and second characteristic information regarding characteristics of an image sequence by using a plurality of images included in an image sequence, and the first characteristic information and the first Based on the 2 feature information, caption information for the image sequence can be generated.
  • the first characteristic information may include information on characteristics of an image sequence determined based on the feature information of the plurality of images sequentially processed according to an image order.
  • the second characteristic information may include information on characteristics of the determined image sequence based on at least one similarity between the characteristic information of the plurality of images.
  • the second feature information may be obtained by combining feature information for each of a plurality of images corrected based on the at least one similarity value.
  • the sensing unit 1400 may detect a state of the electronic device 1000 or a state around the electronic device 1000 and transmit the sensed information to the processor 1300.
  • the sensing unit 1400 includes a magnetic sensor 1410, an acceleration sensor 1420, a temperature/humidity sensor 1430, an infrared sensor 1440, a gyroscope sensor 1450, and a position sensor (Eg, GPS) 1460, an air pressure sensor 1470, a proximity sensor 1480, and an RGB sensor (illuminance sensor) 1490, but may include at least one.
  • the communication unit 1500 may include one or more components that allow the electronic device 1000 to communicate with a server (not shown) or an external device (not shown).
  • the communication unit 1500 may include a short-range communication unit 1510, a mobile communication unit 1520, and a broadcast reception unit 1530.
  • the communication unit 1500 may receive information required to generate caption information for an image sequence from the outside.
  • the communication unit 1500 may receive an image sequence for generating caption information from the outside.
  • the communication unit 1500 may transmit caption information generated by at least one processor 1300 to the outside.
  • the short-range wireless communication unit 1510 includes a Bluetooth communication unit, a Bluetooth Low Energy (BLE) communication unit, a Near Field Communication unit, a WLAN (Wi-Fi) communication unit, a Zigbee communication unit, and an infrared ray ( IrDA, an infrared data association (WDA) communication unit, a WFD (Wi-Fi Direct) communication unit, a UWB (ultra wideband) communication unit, an Ant+ communication unit, and the like, but are not limited thereto.
  • BLE Bluetooth Low Energy
  • Wi-Fi Wireless Fidelity
  • the mobile communication unit 1520 transmits and receives a wireless signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data according to transmission and reception of a voice call signal, a video call signal, or a text/multimedia message.
  • the broadcast receiving unit 1530 receives a broadcast signal and/or broadcast related information from the outside through a broadcast channel.
  • the broadcast channel may include a satellite channel and a terrestrial channel.
  • the electronic device 1000 may not include the broadcast receiving unit 1530.
  • the A/V (Audio/Video) input unit 1600 is for inputting an audio signal or a video signal, which may include a camera 1610 and a microphone 1620.
  • the camera 1610 may obtain a video frame such as a still image or a video through an image sensor in a video call mode or a shooting mode.
  • the image captured through the image sensor may be processed through the processor 1300 or a separate image processing unit (not shown).
  • the microphone 1620 receives external sound signals and processes them as electrical voice data.
  • an image sequence in which caption information may be generated may be obtained by capturing an image by the A/V input unit 1600.
  • the memory 1700 may store a program for processing and controlling the processor 1300, and may store data input to or output from the electronic device 1000.
  • the memory 1700 may store one or more instructions, and the at least one processor 1300 of the above-described electronic device 1000 executes the one or more instructions stored in the memory 1700 to perform one or more instructions.
  • the operation according to the embodiment may be performed.
  • the memory 1700 may store information necessary to generate caption information of an image sequence according to an embodiment.
  • the memory 1700 may store at least one image sequence in which caption information can be generated.
  • the image sequence stored in the memory 1700 may be at least one of an image sequence obtained by the A/V input unit 1600 and an image sequence received from the outside.
  • the memory 1700 is a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (for example, SD or XD memory, etc.), RAM (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (ROM, Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , It may include at least one type of storage medium of the optical disk.
  • Programs stored in the memory 1700 may be classified into a plurality of modules according to their functions, for example, a UI module 1710, a touch screen module 1720, and a notification module 1730. .
  • the UI module 1710 may provide specialized UIs, GUIs, and the like interlocked with the electronic device 1000 for each application.
  • the touch screen module 1720 may detect a touch gesture on the user's touch screen and transfer information regarding the touch gesture to the processor 1300.
  • the touch screen module 1720 according to some embodiments may recognize and analyze a touch code.
  • the touch screen module 1720 may be configured with separate hardware including a controller.
  • a tactile sensor is an example of a sensor for sensing a touch of a touch screen.
  • a tactile sensor is a sensor that senses the contact of a specific object with or above a human level. The tactile sensor can detect various information such as the roughness of the contact surface, the hardness of the contact object, and the temperature of the contact point.
  • the user's touch gesture may include tap, touch & hold, double tap, drag, pan, flick, drag and drop, swipe, and the like.
  • the notification module 1730 may generate a signal for notifying the occurrence of an event in the electronic device 1000.
  • FIG. 7 is a flowchart illustrating a method of generating caption information for an image sequence according to an embodiment.
  • the electronic device 1000 may extract feature information for each of a plurality of images included in the image sequence.
  • the characteristic information of a plurality of images includes at least one of various information representing visual characteristics of each image and information regarding a result of each image being recognized by inputting the information representing the visual characteristics into a data recognition model. It may contain information.
  • the electronic device 1000 may obtain first characteristic information regarding the characteristics of the image sequence by sequentially processing the characteristic information extracted in operation 710 according to the order of the images. According to an embodiment of the present disclosure, the electronic device 1000 obtains first feature information as feature information for the image sequence by sequentially processing feature information of each image according to the order of each image in the image sequence. Can.
  • the electronic device 1000 may acquire first feature information by using a data learning model for obtaining feature information of an image sequence including a plurality of images from feature information for a plurality of images. .
  • the first feature information according to an embodiment may include feature information about an image sequence obtained by considering the order of each image.
  • the electronic device 1000 may obtain the second characteristic information based on at least one similarity between the characteristic information extracted in operation 710.
  • the electronic device 1000 obtains second feature information by using at least one similarity value between feature information of a plurality of images in order to obtain feature information of an image sequence including a plurality of images Can.
  • the second feature information may be obtained by combining feature information for each of a plurality of images corrected based on the at least one similarity value.
  • the second feature information may include feature information about an image sequence, obtained without considering the order of each image.
  • the electronic device 1000 may generate caption information based on the first characteristic information and the second characteristic information obtained in steps 720 and 730.
  • the second characteristic information may be converted into a form that can be combined with the first characteristic information before being combined with the first characteristic information.
  • the first characteristic information and the second characteristic information may be combined with each other based on a representative value of characteristic values corresponding to each other among feature values included in the first characteristic information and the second characteristic information.
  • the combined information may include representative values of corresponding characteristic values, respectively, in the first characteristic information and the second characteristic information.
  • the electronic device 1000 may obtain information combining the first characteristic information and the second characteristic information as characteristic information for the final image sequence.
  • the electronic device 1000 may generate caption information based on the feature information for the final image sequence.
  • caption information may be generated in which characteristics related to images in front of the video sequence are properly reflected.
  • Computer readable media can be any available media that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media.
  • Computer-readable media may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer readable instructions, data structures, or program modules, and includes any information delivery media.
  • the “unit” may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

The present disclosure relates to an artificial intelligence (AI) system mimicking functions like cognition, determination, etc. of human brains by using a machine learning algorithm such as deep learning and the like, and an application of the AI system. Disclosed is a method for generating caption information for a video sequence in an electronic device, the method comprising the steps of: obtaining a plurality of videos included in a video sequence; extracting pieces of characteristic information of each of the plurality of videos; obtaining a first characteristic information on a characteristic of the video sequence by sequentially processing the extracted pieces of characteristic information according to the order of the plurality of videos; obtaining a second characteristic information on a characteristic of the video sequence that was determined on the basis of at least one similarity among the extracted pieces of characteristic information; and generating caption information of the video sequence on the basis of the first characteristic information and the second characteristic information.

Description

영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법 Electronic device generating caption information for image sequence and operation method thereof
본 개시는, 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법에 관한 것이다. The present disclosure relates to an electronic device generating caption information for a video sequence and a method of operating the same.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.The Artificial Intelligence (AI) system is a computer system that realizes human-level intelligence, and unlike the existing Rule-based smart system, the machine learns, judges, and becomes intelligent. As the AI system is used, the recognition rate is improved and the user's taste can be understood more accurately, and the existing Rule-based smart system is gradually being replaced by the deep learning-based AI system.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.Artificial intelligence technology is composed of machine learning (deep learning) and elemental technologies utilizing machine learning.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.Machine learning is an algorithm technology that classifies/learns the characteristics of input data by itself, and element technology is a technology that simulates functions such as cognition and judgment of the human brain by using machine learning algorithms such as deep learning. It consists of technical fields such as understanding, reasoning/prediction, knowledge expression, and motion control.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.The various fields in which artificial intelligence technology is applied are as follows. Linguistic understanding is a technology that recognizes and applies/processes human language/characters, and includes natural language processing, machine translation, conversation system, question and answer, speech recognition/synthesis, etc. Visual understanding is a technology that recognizes and processes objects as human vision, and includes object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image improvement. Inference prediction is a technique for logically inferring and predicting information by determining information, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendation. Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge building (data generation/classification), knowledge management (data utilization), and so on. Motion control is a technique for controlling autonomous driving of a vehicle and movement of a robot, and includes motion control (navigation, collision, driving), operation control (behavior control), and the like.
비디오 캡셔닝 기술은, 영상 시퀀스의 장면들을 묘사하는 문장을 생성하는 기술이다. 비디오 캡셔닝 기술에 의하면, 상술한 인공지능 시스템에 기초하여, 영상 시퀀스의 장면들을 묘사하는 최적의 문장이 생성될 수 있다. The video captioning technique is a technique for generating sentences describing scenes of an image sequence. According to the video captioning technique, based on the above-described artificial intelligence system, an optimal sentence describing scenes of an image sequence can be generated.
사용자는 비디오 캡셔닝 기술에 의해 생성된 문장을 통하여, 상당한 길이의 영상 시퀀스를 직접 시청하지 않고도, 영상 시퀀스의 내용을 쉽게 인식할 수 있다. 또한, 비디오 캡셔닝 기술에 의해 생성된 텍스트는, 영상 시퀀스의 내용을 압축적으로 나타내는 텍스트를 포함함에 따라서, 영상 시퀀스를 분류하거나 인식하는 등의 다양한 분야에서 활용될 수 있다.The user can easily recognize the contents of the video sequence without directly viewing the video sequence of a considerable length through the sentence generated by the video captioning technology. Further, the text generated by the video captioning technology may be utilized in various fields, such as classifying or recognizing an image sequence, as it includes text compressively representing the contents of the image sequence.
따라서, 영상 시퀀스의 내용이 적절하고 명확하게 반영된 텍스트를 생성하기 위한, 비디오 캡셔닝 기술이 필요로 되고 있다.Accordingly, there is a need for a video captioning technique for generating text that properly and clearly reflects the contents of an image sequence.
본 개시가 해결하고자 하는 과제는 전술한 문제를 해결하기 위한 것으로서, 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다. The problem to be solved by the present disclosure is to solve the above-described problem, and to provide an electronic device generating caption information for an image sequence and an operation method thereof.
또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함하는 컴퓨터 프로그램 제품을 제공하는 데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.In addition, it is to provide a computer program product comprising a recording medium readable by a computer recording a program for executing the method on a computer. The technical problem to be solved is not limited to the technical problems as described above, and other technical problems may exist.
도 1은 일 실시 예에 의한 영상 시퀀스의 캡션 정보를 생성하는 일 예를 나타내는 도면이다.1 is a diagram illustrating an example of generating caption information of an image sequence according to an embodiment.
도 2는 일 실시 예에 따라 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치(1000)의 일 예를 나타내는 블록도이다.2 is a block diagram illustrating an example of an electronic device 1000 that generates caption information for an image sequence according to an embodiment.
도 3은 일 실시 예에 따른 비지역적 특징 추출부가 제2 특징 정보를 획득하는 방법의 일 예를 나타낸 도면이다.3 is a diagram illustrating an example of a method in which a non-regional feature extraction unit acquires second feature information according to an embodiment.
도 4는 일 실시 예에 의한 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치(1000)의 일 예를 나타내는 블록도이다.4 is a block diagram illustrating an example of an electronic device 1000 that generates caption information for an image sequence according to an embodiment.
도 5는 일 실시 예에 의한 전자 장치의 내부 구성을 나타낸 블록도이다.5 is a block diagram illustrating an internal configuration of an electronic device according to an embodiment.
도 6은 일 실시 예에 의한 전자 장치의 내부 구성을 나타낸 블록도이다.6 is a block diagram illustrating an internal configuration of an electronic device according to an embodiment.
도 7은 일 실시 예에 의한 영상 시퀀스에 대한 캡션 정보를 생성하는 방법을 나타낸 순서도이다.7 is a flowchart illustrating a method of generating caption information for an image sequence according to an embodiment.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 전자 장치에서, 영상 시퀀스에 대한 캡션(caption) 정보를 생성하는 방법에 있어서, 상기 영상 시퀀스에 포함된 복수 개의 영상들을 획득하는 단계; 상기 복수 개의 영상 각각에 대하여 특징 정보를 추출하는 단계; 상기 추출된 특징 정보들을 상기 복수 개의 영상들의 순서에 따라 순차적으로 처리함으로써, 상기 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득하는 단계; 상기 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 결정된 상기 영상 시퀀스의 특징에 관한 제2 특징 정보를 획득하는 단계; 및 상기 제1 특징 정보 및 상기 제2 특징 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는 단계를 포함한다.As a technical means for achieving the above technical problem, a first aspect of the present disclosure is a method of generating caption information for an image sequence in an electronic device, wherein a plurality of images included in the image sequence are Obtaining; Extracting feature information for each of the plurality of images; Obtaining first feature information regarding features of the image sequence by sequentially processing the extracted feature information according to the order of the plurality of images; Obtaining second feature information on features of the image sequence determined based on at least one similarity between the extracted feature information; And generating caption information for the video sequence based on the first feature information and the second feature information.
또한, 본 개시의 제2 측면은, 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치는, 상기 영상 시퀀스에 포함된 복수 개의 영상들을 저장하는 메모리; 상기 복수 개의 영상 각각에 대하여 특징 정보를 추출하고, 상기 추출된 특징 정보들을 상기 복수 개의 영상들의 순서에 따라 순차적으로 처리함으로써, 상기 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득하고, 상기 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 결정된 상기 영상 시퀀스의 특징에 관한 제2 특징 정보를 획득하고, 상기 제1 특징 정보 및 상기 제2 특징 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는, 적어도 하나의 프로세서; 및 상기 생성된 캡션 정보에 기초한 정보를 출력하는 출력부를 포함하는, 전자 장치를 포함한다.In addition, a second aspect of the present disclosure, an electronic device generating caption information for an image sequence includes: a memory for storing a plurality of images included in the image sequence; Feature information is extracted for each of the plurality of images, and the extracted feature information is sequentially processed according to the order of the plurality of images to obtain first feature information regarding features of the image sequence, and the extracted Acquire second feature information regarding the feature of the image sequence determined based on at least one similarity between feature information, and obtain caption information for the image sequence based on the first feature information and the second feature information. Generating, at least one processor; And an output unit that outputs information based on the generated caption information.
또한, 본 개시의 제3 측면은, 제1 측면 또는 제2 측면의 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는 컴퓨터 프로그램 제품을 제공할 수 있다.Further, a third aspect of the present disclosure may provide a computer program product including a recording medium in which a program for performing the method of the first aspect or the second aspect is stored.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art to which the present invention pertains may easily practice. However, the present invention can be implemented in many different forms and is not limited to the embodiments described herein. In addition, in order to clearly describe the present invention in the drawings, parts irrelevant to the description are omitted, and like reference numerals are assigned to similar parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is "connected" to another part, this includes not only "directly connected" but also "electrically connected" with other elements in between. . Also, when a part “includes” a certain component, this means that other components may be further included instead of excluding other components, unless otherwise specified.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. AI-related functions according to the present disclosure are operated through a processor and a memory. The processor may be composed of one or more processors. At this time, the one or a plurality of processors may be a general-purpose processor such as a CPU, an AP, or a digital signal processor (DSP), a graphic processor such as a GPU or a vision processing unit (VPU), or an artificial intelligence processor such as an NPU. One or a plurality of processors are controlled to process input data according to predefined operation rules or artificial intelligence models stored in the memory. Alternatively, when one or more processors are AI-only processors, the AI-only processors may be designed with a hardware structure specialized for processing a specific AI model.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.The predefined motion rules or artificial intelligence models are characterized by being created through learning. Here, by being created through learning, the basic artificial intelligence model is learned using a plurality of training data by a learning algorithm, thereby creating a predefined operation rule or artificial intelligence model set to perform a desired characteristic (or purpose). It means Jim. Such learning may be performed on a device on which artificial intelligence according to the present disclosure is performed, or may be performed through a separate server and/or system. Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but are not limited to the examples described above.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.The artificial intelligence model may be composed of a plurality of neural network layers. Each of the plurality of neural network layers has a plurality of weight values and performs a neural network operation through calculation between a result of calculation of a previous layer and a plurality of weights. The plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated such that a loss value or a cost value obtained from the artificial intelligence model is reduced or minimized during the learning process. The artificial neural network may include a deep neural network (DNN), for example, a convolutional neural network (CNN), a deep neural network (DNN), a recurrent neural network (RNN), a restricted boltzmann machine (RBM), There are Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN) or Deep Q-Networks, but are not limited to the above-described examples.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.
도 1은 일 실시 예에 의한 영상 시퀀스의 캡션 정보를 생성하는 일 예를 나타내는 도면이다.1 is a diagram illustrating an example of generating caption information of an image sequence according to an embodiment.
일 실시 예에 의하면, 복수 개의 영상들(111, 112, 113, 114, 115, 116)을 포함하는 영상 시퀀스(110)에 대하여, 캡션 정보(120)가 생성될 수 있다. 일 실시 예에 의한 캡션 정보(120)는, 영상 시퀀스(110)에 포함된 영상들의 장면을 묘사하는 정보를 포함할 수 있다. According to an embodiment, caption information 120 may be generated for an image sequence 110 including a plurality of images 111, 112, 113, 114, 115, and 116. The caption information 120 according to an embodiment may include information describing a scene of images included in the image sequence 110.
예를 들면, 캡션 정보(120)는 영상 시퀀스(110)에 포함된 영상들을 아우르는, 하나의 주제(topic)를 나타내는 정보를 포함할 수 있다. For example, the caption information 120 may include information indicating one topic, encompassing images included in the image sequence 110.
일 실시 예에 의하면, 사용자가 영상 시퀀스(110)에 포함된 영상들의 대략적인 내용을 판단할 수 있도록, 영상 시퀀스(110)에 대하여 생성된 캡션 정보(120)가 사용자에게 제공될 수 있다. 예를 들면, 일 실시 예에 따라 생성된 캡션 정보(120)가 전자 장치(1000)에 표시될 수 있다.According to an embodiment, caption information 120 generated for the image sequence 110 may be provided to the user so that the user can determine the approximate contents of the images included in the image sequence 110. For example, the caption information 120 generated according to an embodiment may be displayed on the electronic device 1000.
또한, 일 실시 예에 의한 캡션 정보(120)는, 영상 시퀀스(110)를 분류, 인식하는 등, 영상 시퀀스(110)에 관한 다양한 프로세스를 수행하는데 이용될 수 있다.Further, the caption information 120 according to an embodiment may be used to perform various processes related to the image sequence 110, such as classifying and recognizing the image sequence 110.
일 실시 예에 의한 영상 시퀀스(110)의 캡션 정보(120)는, 영상 시퀀스(110)의 특징에 관한 정보에 기초하여 생성될 수 있다. 영상 시퀀스(110)의 특징에 관한 정보는, 영상 시퀀스(110)에 포함된 영상들의 특징에 기초하여, 생성될 수 있다.The caption information 120 of the image sequence 110 according to an embodiment may be generated based on information on features of the image sequence 110. Information about the features of the image sequence 110 may be generated based on the features of the images included in the image sequence 110.
일 실시 예에 의하면 영상 시퀀스(110)의 특징에 관한 정보는, 영상 시퀀스(110)에 포함된 영상들의 특징 정보들을 입력으로 하는 학습 모델에 의해, 획득될 수 있다. 예를 들면, 상술한 학습 모델은, 영상 시퀀스(110)에 포함된 영상들의 특징 정보들로부터 캡션 정보(120)를 생성하는데 적절한 영상 시퀀스(110)의 특징 정보가 획득될 수 있도록, 학습될 수 있다. According to an embodiment, information on the features of the image sequence 110 may be obtained by a learning model using feature information of images included in the image sequence 110 as an input. For example, the learning model described above may be trained so that feature information of the image sequence 110 suitable for generating caption information 120 from feature information of images included in the image sequence 110 can be obtained. have.
또한, 일 실시 예에 의하면, 영상 시퀀스(110)의 특징에 관한 정보는, 상술한 학습 모델을 이용한 방법뿐만 아니라, 영상 시퀀스(110)에 포함된 영상들의 특징 정보에 기초한 다양한 방법을 통해 획득될 수 있다.In addition, according to an embodiment, information on the features of the image sequence 110 may be obtained through various methods based on feature information of images included in the image sequence 110 as well as the method using the above-described learning model. Can.
일 실시 예에 의한 영상 시퀀스(110)의 캡션 정보(120)는, 영상 시퀀스(110)에 포함된 복수 개의 영상들(111, 112, 113, 114, 115, 116)들 각각의 특징 정보에 기초하여, 생성될 수 있다. 영상의 특징 정보는, 영상의 비주얼적인 특징을 나타내는 정보로서, 예를 들면, 히스토그램 정보, 엣지 정보, 밝기 정보, 색상 분포에 관한 정보, 형상(shape)에 관한 정보 등을 포함할 수 있다. 상술한 예에 한하지 않고, 영상의 특징 정보는, 영상의 비주얼적인 특징을 나타내는 다양한 정보를 포함할 수 있다.The caption information 120 of the image sequence 110 according to an embodiment is based on feature information of each of a plurality of images 111, 112, 113, 114, 115 and 116 included in the image sequence 110. Thus, it can be generated. The feature information of the image is information representing the visual characteristics of the image, and may include, for example, histogram information, edge information, brightness information, color distribution information, and shape information. Not limited to the above-described example, the feature information of the image may include various information representing the visual feature of the image.
또한, 일 실시 예에 의한 영상의 특징 정보는, 데이터 인식 모델에 영상에 관한 다양한 정보, 예를 들면, 상술한 영상의 비주얼적 특징을 나타내는 다양한 정보를 입력함으로써, 상기 영상이 인식된 결과를 포함할 수 있다. 상기 영상이 인식된 결과는 예를 들면, 영상에서 인식된 객체에 관한 정보, 영상에서 인식된 객체의 위치에 관한 정보, 영상에서 인식된 객체의 움직임에 관한 정보 등을 포함할 수 있다. 예를 들어, 데이터 인식 모델에 입력된 영상이 고양이가 촬영된 영상인 경우, 데이터 인식 모델의 영상의 인식 결과는 "고양이"을 포함할 수 있다. 이에 따라, 상기 영상의 특징 정보는, 영상에 대한 인식 결과인, "고양이"를 포함할 수 있다.In addition, the feature information of the image according to an embodiment includes a result of recognizing the image by inputting various information about the image to the data recognition model, for example, various information representing the visual characteristics of the image. can do. The result of recognizing the image may include, for example, information on an object recognized in the image, information on a position of the object recognized in the image, information on the motion of the object recognized in the image, and the like. For example, when the image input to the data recognition model is an image of a cat, the recognition result of the image of the data recognition model may include “cat”. Accordingly, the feature information of the image may include a “cat”, which is a result of recognition of the image.
상술한 예에 한하지 않고, 데이터 인식 모델에 의해 영상이 인식된 결과는, 영상의 특징을 나타내는 다양한 정보를 포함할 수 있다.The results of the image recognition by the data recognition model are not limited to the above-described examples, and may include various information representing characteristics of the image.
일 실시 예에 있어서, 영상의 특징 정보를 획득하는데 이용될 수 있는 데이터 인식 모델은, 영상 내의 객체를 분류하고 탐지하는데 이용되는 CNN(convolutional neural network)일 수 있다. 상술한 예에 한하지 않고, 일 실시 예에서는, 영상의 특징 정보를 획득하는데 이용될 수 있는 뉴럴 네트워크를 기반으로 하는 다양한 종류의 데이터 인식 모델이 이용될 수 있다.In one embodiment, a data recognition model that can be used to obtain feature information of an image may be a convolutional neural network (CNN) used to classify and detect objects in the image. Not limited to the above-described examples, in one embodiment, various types of data recognition models based on neural networks that can be used to acquire feature information of an image may be used.
따라서, 일 실시 예에 따른 영상 시퀀스(110)에 포함된 영상들의 특징 정보는, 각 영상의 비주얼적 특징을 나타내는 다양한 정보 및 상기 비주얼적 특징을 나타내는 정보가 데이터 인식 모델에 입력됨으로써 각 영상이 인식된 결과에 관한 정보 중 적어도 하나의 정보를 포함할 수 있다.Accordingly, feature information of the images included in the image sequence 110 according to an embodiment is recognized by inputting various information representing visual characteristics of each image and information representing the visual characteristics into a data recognition model. It may include at least one of the information about the results.
일 실시 예에 의한 영상 시퀀스(110)는, 시간 순서대로 나열된, 복수 개의 영상 프레임들을 포함할 수 있다. 예를 들면, 하나의 비디오 파일은 장면 또는 주제별로 구분된 복수의 영상 시퀀스를 포함할 수 있고, 각각의 영상 시퀀스는, 복수 개의 영상들을 포함할 수 있다. 또한, 영상 시퀀스(110)에 포함된 복수 개의 영상들은, 정지 영상(still image)일 수 있다. The image sequence 110 according to an embodiment may include a plurality of image frames, arranged in chronological order. For example, one video file may include a plurality of image sequences divided by scene or subject, and each image sequence may include a plurality of images. Also, a plurality of images included in the image sequence 110 may be still images.
일 실시 예에 따라, 캡션 정보(110)를 생성하기 위한 복수 개의 영상들(111, 112, 113, 114, 115, 116)은, 미리 결정된 시간 간격에 따라 설정된 각 시점(time point)과 대응되는 정지 영상일 수 있다. 상술한 예에 한하지 않고, 복수 개의 영상들(111, 112, 113, 114, 115, 116)은, 영상 시퀀스(110)에 포함된 복수 개의 정지 영상들 중, 다양한 기준 또는 방법으로 선택된 복수의 정지 영상을 포함할 수 있다.According to one embodiment, a plurality of images (111, 112, 113, 114, 115, 116) for generating the caption information 110, corresponding to each time point (time point) set according to a predetermined time interval It may be a still image. Not limited to the above-described example, the plurality of images 111, 112, 113, 114, 115, and 116 are among a plurality of still images included in the image sequence 110, a plurality of images selected by various criteria or methods It may include a still image.
도 2는 일 실시 예에 따라 영상 시퀀스(210)에 대한 캡션 정보를 생성하는 전자 장치(1000)의 일 예를 나타내는 블록도이다.2 is a block diagram illustrating an example of an electronic device 1000 that generates caption information for an image sequence 210 according to an embodiment.
일 실시 예에 의한 전자 장치(1000)는 영상 시퀀스(110)에 대한 캡션 정보(120)를 생성할 수 있는 다양한 형태의 장치로 구현될 수 있다. 예를 들어, 본 명세서에서 기술되는 전자 장치(1000)는, 디지털 카메라, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어 등이 있을 수 있으나, 이에 한정되는 것은 아니다. 본 명세서에서 기술되는 전자 장치(1000)는 사용자에 의해 착용될 수 있는 장치(wearable device)일 수 있다. 웨어러블 디바이스는 액세서리 형 장치(예컨대, 시계, 반지, 팔목 밴드, 발목 밴드, 목걸이, 안경, 콘택트 렌즈), 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형 장치(예: 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. The electronic device 1000 according to an embodiment may be implemented as various types of devices capable of generating caption information 120 for the image sequence 110. For example, the electronic device 1000 described in the present specification includes a digital camera, a smart phone, a laptop computer, a tablet PC, an electronic book terminal, a terminal for digital broadcasting, and PDAs (Personal Digital Assistants). , PMP (Portable Multimedia Player), navigation, MP3 player, and the like, but is not limited thereto. The electronic device 1000 described in this specification may be a wearable device. Wearable devices include accessory devices (e.g. watches, rings, cuff bands, ankle bands, necklaces, glasses, contact lenses), head-mounted devices (HMD), fabric or garment-integrated devices (e.g. Electronic clothing), a body-attached device (eg, a skin pad), or a bio-implantable device (eg, an implantable circuit).
일 실시 예에 따라 캡션 정보를 생성하고자 하는 영상 시퀀스(210)는, 영상 1 내지 4(231, 232, 233, 234)를 포함할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 영상 1 내지 4(231, 232, 233, 234)에 기초하여, 영상 시퀀스(210)에 대한 캡션 정보를 생성할 수 있다.According to an embodiment, the image sequence 210 for generating caption information may include images 1 to 4 (231, 232, 233, 234). The electronic device 1000 according to an embodiment may generate caption information for the image sequence 210 based on the images 1 to 4 (231, 232, 233, and 234).
일 실시 예에 의한 영상 1 내지 4(231, 232, 233, 234)는 영상 시퀀스(210)에 포함된 복수의 영상들 중, 캡션 정보를 생성하기 위한 영상을 결정하기 위해, 미리 결정된 기준 또는 방법에 따라서, 선택될 수 있다. 또한, 상술한 예에 한하지 않고, 영상 시퀀스(210)에 포함된 모든 정지 영상 또는 모든 정지 영상 중에서 임의로 선택된 정지 영상들이, 캡션 정보를 생성하기 위한 영상으로 이용될 수 있다. Images 1 to 4 (231, 232, 233, 234) according to an embodiment of the plurality of images included in the image sequence 210, in order to determine an image for generating caption information, a predetermined reference or method Accordingly, it can be selected. Further, the present invention is not limited to the above-described example, and all still images included in the image sequence 210 or still images randomly selected from all the still images may be used as images for generating caption information.
일 실시 예에 의하면, 도 2에 도시된 것과 같이 4개의 영상만이 이용되는 것에 한하지 않고, 영상 시퀀스(210)에 따라 각각 다른 개수의 영상들이 영상 시퀀스(210)의 캡션 정보를 생성하는데 이용될 수 있다. 예를 들면, 영상 시퀀스(210)의 길이가 길수록, 영상 시퀀스(210)에 포함된 많은 수의 영상들이 영상 시퀀스(210)의 캡션 정보를 생성하는데 이용될 수 있다.According to an embodiment, as shown in FIG. 2, not only four images are used, but different numbers of images are used to generate caption information of the image sequence 210 according to the image sequence 210. Can be. For example, as the length of the image sequence 210 increases, a large number of images included in the image sequence 210 may be used to generate caption information of the image sequence 210.
도 2을 참조하면, 전자 장치(1000)는, 일 실시 예에 따라 영상 시퀀스(210)의 캡션 정보를 생성하기 위한 구성으로, 지역적(local) 특징 획득부(220), 비지역적(non-local) 특징 획득부(230), 결합부(240) 및 캡션 생성부(250)를 포함할 수 있다. Referring to FIG. 2, the electronic device 1000 is a configuration for generating caption information of the image sequence 210 according to an embodiment, and includes a local feature acquisition unit 220 and a non-local ) May include a feature acquiring unit 230, a coupling unit 240, and a caption generating unit 250.
일 실시 예에 의하면, 영상 시퀀스(210)에 포함된 복수의 영상으로부터 추출된 각각의 특징 정보가 지역적 특징 획득부(220) 및 비지역적 특징 획득부(230)로 전달됨으로써, 영상 시퀀스(210)의 특징에 관한 제1 특징 정보 및 제2 특징 정보가 각각 획득될 수 있다. According to an embodiment, each feature information extracted from a plurality of images included in the image sequence 210 is transmitted to the regional feature acquisition unit 220 and the non-regional feature acquisition unit 230, thereby resulting in the image sequence 210. The first characteristic information and the second characteristic information regarding the characteristic of the may be respectively obtained.
일 실시 예에 따른 지역적 특징 획득부(220) 및 비지역적 특징 획득부(230)로 전달되는 영상들의 특징 정보는, 각 영상의 비주얼적 특징을 나타내는 다양한 정보 및 상기 비주얼적 특징을 나타내는 정보가 데이터 인식 모델에 입력됨으로써 각 영상이 인식된 결과에 관한 정보 중 적어도 하나의 정보를 포함할 수 있다. 상술한 예에 한하지 않고, 영상에 대한 특징 정보는, 각각의 영상으로부터 획득된 다양한 종류의 정보를 포함할 수 있다.The feature information of the images delivered to the regional feature acquiring unit 220 and the non-regional feature acquiring unit 230 according to an embodiment includes various information representing visual characteristics of each image and information representing the visual characteristics. By inputting the recognition model, each image may include at least one of information related to a recognized result. Not limited to the above-described example, the feature information for the image may include various types of information obtained from each image.
일 실시 예에 의하면, 지역적 특징 획득부(220) 및 비지역적 특징 획득부(230)는 제1 특징 정보 및 제2 특징 정보를 각각 획득할 수 있다. 일 실시 예에 의한 제1 특징 정보 및 제2 특징 정보는, 각각 지역적 특징 획득부(220) 및 비지역적 특징 획득부(230)에서, 각기 다른 방법으로 획득된 영상 시퀀스(210)의 특징을 나타내는 정보이다.According to an embodiment, the regional feature acquisition unit 220 and the non-regional feature acquisition unit 230 may acquire first feature information and second feature information, respectively. The first characteristic information and the second characteristic information according to an embodiment represent characteristics of the image sequence 210 acquired in different ways by the regional feature acquisition unit 220 and the non-regional feature acquisition unit 230, respectively. Information.
일 실시 예에 의하면, 각각 다른 방법으로 획득된 영상 시퀀스(210)의 특징을 나타내는, 제1 특징 정보 및 제2 특징 정보에 기초하여, 캡션 정보가 생성될 수 있다. 따라서, 일 실시 예에 의하면, 한가지 방법으로만 획득된 영상 시퀀스(210)의 특징 정보에 기초하여 캡션 정보가 생성되는 경우보다, 더 적절한 캡션 정보가 생성될 수 있다.According to an embodiment, caption information may be generated based on the first characteristic information and the second characteristic information, which represent characteristics of the image sequence 210 obtained by different methods. Accordingly, according to an embodiment, more suitable caption information may be generated than when the caption information is generated based on the feature information of the image sequence 210 obtained in only one way.
일 실시 예에 따른 지역적 특징 획득부(220)는, 각각의 영상들의 특징 정보를 영상들의 순서에 따라 순차적으로 처리함으로써, 영상 시퀀스(210)의 특징에 관한 제1 특징 정보를 획득할 수 있다. 일 실시 예에 의하면, 각 영상들의 특징 정보가, 지역적 특징 획득부(220)에서 영상 순서에 따라 순차적으로 처리됨으로써, 영상 시퀀스(210)의 특징을 획득하기 위한 처리가 수행될 수 있다.The regional feature acquiring unit 220 according to an embodiment may acquire first feature information regarding features of the image sequence 210 by sequentially processing feature information of each image in the order of the images. According to an embodiment, the feature information of each image may be sequentially processed in the image order by the regional feature acquiring unit 220, so that processing for acquiring features of the image sequence 210 may be performed.
일 실시 예에 의한 지역적 특징 획득부(220)는, 도 2에 도시된 바와 같이, 특징 획득부 1 내지 4(221, 222, 223, 224)를 포함할 수 있다. 또한, 지역적 특징 획득부(220)는, 특징 획득부 1 내지 4(221, 222, 223, 224)를 통해, 영상 1 내지 4(231, 232, 233, 234)에 대하여 추출된 영상의 특징 정보에 기초하여, 영상 시퀀스(210)에 대한 제1 특징 정보를 획득할 수 있다. The regional feature acquiring unit 220 according to an embodiment may include feature acquiring units 1 to 4 (221, 222, 223, 224), as illustrated in FIG. 2. In addition, the regional feature acquisition unit 220, through the feature acquisition unit 1 to 4 (221, 222, 223, 224), through the image 1 to 4 (231, 232, 233, 234) extracted feature information of the image Based on the, first characteristic information about the image sequence 210 may be obtained.
일 실시 예에 의하면, 영상 1 내지 4(231, 232, 233, 234)로부터 추출된 특징 정보가 각 영상의 순서에 따라 순차적으로 특징 획득부 1 내지 4(221, 222, 223, 224)에 각각 입력되어 처리됨으로써, 영상 시퀀스(210)에 대한 제1 특징 정보가 획득될 수 있다. 따라서, 영상 1부터 영상 4까지 차례대로, 각 영상의 특징 정보가 순차적으로 처리될 수 있으며, 특징 획득부 4(224)에 의해 출력된 결과가, 영상 시퀀스(210)에 대한 제1 특징 정보로서, 결합부(240)에 입력될 수 있다.According to an embodiment, the feature information extracted from the images 1 to 4 (231, 232, 233, 234) are sequentially acquired in the feature obtaining units 1 to 4 (221, 222, 223, 224) according to the order of each image, respectively. By inputting and processing, first characteristic information about the image sequence 210 may be obtained. Accordingly, from image 1 to image 4, feature information of each image may be sequentially processed, and a result output by the feature acquiring unit 4 224 may be used as first feature information for the image sequence 210. , May be input to the coupling unit 240.
일 실시 예에 의한 특징 획득부 1 내지 4(221, 222, 223, 224)는, 순서 또는 시간적 측면을 고려하여, 복수 개의 영상들에 대한 특징 정보를 처리함으로써, 복수 개 영상들을 포함한 영상 시퀀스(210)의 특징 정보를 획득하기 위한 데이터 인식 모델을 이용할 수 있다. 예를 들면, 특징 획득부 1 내지 4(221, 222, 223, 224)에서 이용될 수 있는 데이터 인식 모델은, RNN(recurrent Neural Networks; 순환 신경망), LSTM(Long short term memory) 등일 수 있다. 상기 데이터 인식 모델은, 예를 들면, 각 영상의 특징 정보가 순차적으로 입력됨에 따라서, 영상들의 순서를 고려하여, 영상 시퀀스(210)의 특징 정보를 획득하기 위한 학습 모델일 수 있다. 상술한 예에 한하지 않고, 특징 획득부 1 내지 4(221, 222, 223, 224)에서 이용될 수 있는 데이터 인식 모델은 다양한 종류의 학습 모델일 수 있다.The feature acquiring units 1 to 4 (221, 222, 223, 224) according to an embodiment may process image information including a plurality of images by processing feature information for a plurality of images in consideration of order or temporal aspects ( 210) may use a data recognition model for acquiring feature information. For example, the data recognition models that can be used in the feature acquisition units 1 to 4 (221, 222, 223, 224) may be recurrent neural networks (RNN), long short term memory (LSTM), or the like. The data recognition model may be, for example, a learning model for obtaining feature information of the image sequence 210 in consideration of the order of the images, as feature information of each image is sequentially input. The data recognition model that can be used in the feature acquisition units 1 to 4 (221, 222, 223, 224) is not limited to the above-described examples, and may be various types of learning models.
일 실시 예에 따른, 특징 획득부 1 내지 4(221, 222, 223, 224)를 포함한, 지역적 특징 획득부(220)는, 영상 1부터 영상 4까지의 순서를 고려하여 획득된, 영상 시퀀스(210)에 대한 특징을 나타내는, 제1 특징 정보를 출력할 수 있다. 예를 들면, 제1 특징 정보는, 영상 1 내지 영상 4의 각각의 특징 정보가 순서대로 데이터 인식 모델에 입력되었을 때, 영상 1 내지 영상 4를 포함하는 영상 시퀀스(210)에 대한 특징 정보로 판단된 결과를 포함할 수 있다.According to an embodiment, the regional feature acquiring unit 220, including the feature acquiring units 1 to 4 (221, 222, 223, 224), is obtained in consideration of the order from the image 1 to the image 4, the image sequence ( 210), the first characteristic information indicating the characteristic for the first may be output. For example, the first feature information is determined as feature information for the image sequence 210 including the images 1 to 4 when the respective feature information of the images 1 to 4 is sequentially input to the data recognition model. Results may be included.
일 실시 예에 의하면, 특징 획득부 1(221)에서, 영상 1에 대한 특징 정보가 데이터 인식 모델(ex. LSTM)에 의해 인식된 결과가 특징 획득부 2(222)의 입력으로 들어갈 수 있다. 특징 획득부 2(222)는, 특징 획득부 1(221)의 결과 및 영상 2에 대한 특징 정보를 입력으로 하여, 데이터 인식 모델을 통해 결과값을 출력할 수 있다. 또한, 특징 획득부 3(223)는, 특징 획득부 2(222)의 결과 및 영상 3에 대한 특징 정보를 입력으로 하여, 데이터 인식 모델을 통해 결과값을 출력할 수 있다. 특징 획득부 4(224)는, 특징 획득부 3(223)의 결과 및 영상 4에 대한 특징 정보를 입력으로 하여, 데이터 인식 모델을 통해 결과값을 출력할 수 있다. 또한, 특징 획득부 4(224)에 의해 출력된 결과값은, 제1 특징 정보로서, 결합부(240)로 전달될 수 있다.According to an embodiment, in the feature acquiring unit 1 (221), the result of the feature information for the image 1 recognized by the data recognition model (ex. LSTM) may enter the input of the feature acquiring unit 2 (222). The feature acquiring unit 2 222 may input the result of the feature acquiring unit 1 221 and the feature information on the image 2 as inputs, and output a result value through a data recognition model. Also, the feature acquiring unit 3 223 may input the result of the feature acquiring unit 2 222 and feature information on the image 3 as inputs, and output the result value through the data recognition model. The feature acquiring unit 4 224 may input the result of the feature acquiring unit 3 223 and feature information on the image 4 as inputs, and output the result value through the data recognition model. In addition, the result value output by the feature acquiring unit 4 224 may be transmitted to the combining unit 240 as first feature information.
따라서, 일 실시 예에 의하면, 영상 1 내지 영상 4의 특징 정보는 각 영상의 순서에 따라 순차적으로 지역적 특징 획득부(220)에서 처리될 수 있고, 처리 결과, 영상 시퀀스(210)의 특징을 나타내는 제1 특징 정보가 출력될 수 있다.Accordingly, according to an embodiment, the feature information of the images 1 to 4 may be sequentially processed by the regional feature acquiring unit 220 according to the order of each image, and as a result of processing, indicating characteristics of the image sequence 210 The first characteristic information can be output.
그러나, 특징 획득부 1 내지 4(221, 222, 223, 224)에서 처리가 순차적으로 수행됨에 따라, 제1 특징 정보가 획득될 수 있으므로, 영상 시퀀스(210)의 앞부분에 위치한 영상 1(231)의 특징 정보는, 제1 특징 정보에 상대적으로 적게 반영될 수 있다. 반면, 가장 마지막으로 처리된 영상 4(224)의 특징 정보는, 제1 특징 정보에 상대적으로 많이 반영될 수 있다. However, as the processing is sequentially performed in the feature acquisition units 1 to 4 (221, 222, 223, 224), since the first feature information can be obtained, the image 1 (231) located at the front of the image sequence 210 The characteristic information of may be relatively less reflected in the first characteristic information. On the other hand, the feature information of the last processed image 4 224 may be relatively reflected in the first feature information.
예를 들어, 영상 시퀀스(210)의 길이가 상당히 길어, 영상 시퀀스(210)의 캡션 정보를 생성하는데 이용되는 영상이 상당히 많은 경우, 지역적 특징 획득부(220)에서 상술한 순차적인 처리가, 캡션 정보를 생성하는데 이용되는 영상의 개수만큼 상당히 많은 횟수로 수행될 수 있다. 영상 시퀀스(210)의 앞부분에 위치한 영상들의 특징 정보는, 처리가 반복적으로 수행됨에 의해서, 제1 특징 정보에 거의 반영되지 않을 수 있다. For example, if the length of the image sequence 210 is quite long, and there are a lot of images used to generate the caption information of the image sequence 210, the sequential processing described above in the regional feature acquisition unit 220 may be performed. It can be performed as many times as many times as the number of images used to generate information. The feature information of the images located in the front portion of the image sequence 210 may be hardly reflected in the first feature information by repeatedly processing.
따라서, 일 실시 예에 의하면, 제1 특징 정보뿐만 아니라, 영상의 순서가 고려되지 않고 획득된, 제2 특징 정보가 더 이용됨으로써, 영상 시퀀스(210)의 앞부분에 위치한 영상들의 특징 정보들이 적절히 반영된, 영상 시퀀스(210)의 특징 정보가 획득될 수 있다.Accordingly, according to an embodiment, as well as the first feature information, the second feature information obtained without considering the order of the images is further used, so that feature information of images located in the front portion of the image sequence 210 is properly reflected. , Feature information of the image sequence 210 may be obtained.
일 실시 예에 의한 제2 특징 정보를 획득하기 위한, 비지역적 특징 획득부(230)는 비지역적 특징 추출부(231)와 변환부(232)를 포함할 수 있다. 비지역적 특징 획득부(230)는 상술한 예에 한하지 않고, 변환부(232) 없이 비지역적 특징 추출부(231)만 포함할 수도 있다. 일 실시 예에 의한 비지역적 특징 획득부(230)는 지역적 특징 획득부(220)와는 달리, 영상 1 내지 영상 4의 순서를 고려하지 않고, 각 영상들의 특징 정보에 기초하여, 영상 시퀀스(210)의 특징에 관한 제2 특징 정보를 획득할 수 있다. 일 실시 예에 의하면, 비지역적 특징 추출부(231)는, 영상 1 내지 영상 4의 순서를 고려하지 않고, 각 영상들의 특징 정보들 간의 유사도에 기초하여, 영상 시퀀스(210)에 대한 특징 정보를 추출할 수 있다.For obtaining the second feature information according to an embodiment, the non-regional feature acquisition unit 230 may include a non-regional feature extraction unit 231 and a conversion unit 232. The non-regional feature acquisition unit 230 is not limited to the above-described example, and may include only the non-regional feature extraction unit 231 without the conversion unit 232. Unlike the regional feature acquiring unit 220, the non-regional feature acquiring unit 230 according to an embodiment does not consider the order of the images 1 to 4 and based on the feature information of each image, the image sequence 210 It is possible to obtain second feature information regarding the feature of. According to an embodiment, the non-regional feature extraction unit 231 does not consider the order of the images 1 to 4, and based on the similarity between the feature information of each image, the feature information for the image sequence 210 Can be extracted.
일 실시 예에 의하면, 비지역적 특징 획득부(230)는, 영상 1(231)의 특징 정보와 영상 1(231)을 제외한 다른 영상들과의 특징 정보에 대한 유사도 값들을 획득하고, 획득된 유사도 값들에 대한 가중치 합을 구할 수 있다. 또한, 영상 2(232) 내지 영상 4(134)의 경우도, 영상 1(231)과 동일하게, 다른 영상들과의 특징 정보 간의 유사도 값들을 획득하고, 획득된 유사도 값들에 대한 가중치 합을 구할 수 있다. 일 실시 예에 의하면, 각각의 유사도 값에 적용되는 가중치 값들은, 학습에 의해 최적의 값으로 결정될 수 있다.According to an embodiment, the non-regional feature acquiring unit 230 acquires similarity values for feature information of the image 1 231 and other images except the image 1 231, and the obtained similarity The sum of the weights of the values can be obtained. Also, in the case of the images 2 (232) to 4 (134), similarly to the image 1 (231), similarity values between feature information with other images are obtained, and a weighted sum of the obtained similarity values is obtained. Can. According to an embodiment, weight values applied to each similarity value may be determined as an optimal value by learning.
따라서, 일 실시 예에 의하면, 영상 1(231) 내지 영상 4(134)에 대하여, 유사도 값의 가중치 합이 각각 획득될 수 있다.Accordingly, according to an embodiment, for images 1 231 to 4 134, a weighted sum of similarity values may be respectively obtained.
일 실시 예에 의하면, 각 영상에 대하여 획득된 가중치 합들에 기초하여, 각각 대응되는 영상에 대한 특징 정보들이 수정될 수 있다. 따라서, 각 영상에 대한 특징 정보들은, 다른 영상들과의 유사도 값에 따라 수정될 수 있다. According to an embodiment, based on weighted sums obtained for each image, feature information for each corresponding image may be corrected. Accordingly, feature information for each image may be corrected according to a similarity value with other images.
또한, 일 실시 예에 의하면, 각 영상의 특징 정보에 포함된 특징 값이 각 영상에서 나타나는 빈도 수가 높을 수록, 상기 특징 값에 대한 중요도가 높아질 수 있다. 따라서, 일 실시 예에 의하면, 복수 개의 영상들 간의 특징 값들의 빈도 수 및 특징 정보에 대한 유사도에 기초하여, 각 영상에 대한 특징 정보가 수정될 수 있다.Further, according to an embodiment, the higher the frequency of the feature values included in the feature information of each image appears in each image, the higher the importance of the feature values. Accordingly, according to an embodiment, the feature information for each image may be corrected based on the frequency of feature values between a plurality of images and the similarity of the feature information.
일 실시 예에 의하면, 복수 개의 영상 각각에 대하여 수정된 특징 정보에 기초하여, 제2 특징 정보가 획득될 수 있다. 예를 들면, 제2 특징 정보는, 유사도에 기초하여, 복수 개의 영상 각각에 대하여 수정된 특징 정보들이 결합 연산(concatenation operation)을 통해 서로 결합됨으로써, 획득될 수 있다. According to an embodiment, the second feature information may be obtained based on the modified feature information for each of the plurality of images. For example, the second feature information may be obtained by combining feature information corrected for each of a plurality of images based on similarity, through concatenation operation.
일 예로, 수정된 특징 정보들에 포함된 특징 값들에 대한 대표값(ex. 평균값, 중간값 등)이 결정될 수 있고, 상기 결정된 대표 값을 포함하는 특징 정보가, 제2 특징 정보로서, 획득될 수 있다. 예를 들면, 제1 특징 정보 및 제2 특징 정보에 포함된 특징 값들 중 서로 대응되는 특징 값들에 대하여 대표 값이 결정될 수 있다. 상술한 예에 한하지 않고, 일 실시 예에 의한 제2 특징 정보는 다양한 방법을 통해, 복수 개의 영상 각각에 대하여, 유사도에 따라 수정된 특징 정보에 기초하여, 획득될 수 있다.For example, a representative value (eg, average value, median value, etc.) for feature values included in the modified feature information may be determined, and feature information including the determined representative value may be obtained as second feature information. Can. For example, a representative value may be determined for feature values corresponding to each other among feature values included in the first feature information and the second feature information. The second feature information according to an exemplary embodiment is not limited to the above-described example, and may be obtained through various methods, based on feature information modified according to similarity, for each of a plurality of images.
또한, 일 실시 예에 의한, 변환부(232)는, 비지역적 특징 추출부(231)에 의해 획득된 제2 특징 정보를, 결합부(240)에 의해 제1 특징 정보와 결합될 수 있는 형태로, 변환시킬 수 있다. 예를 들어, 변환부(232)는, 제1 특징 정보 및 제2 특징 정보에서 서로 대응되는 특징 값들이 병렬적으로 결합될 수 있도록, 제2 특징 정보에 포함된 특징 값들의 순서를 조정하거나, 제2 특징 정보에 새로운 특징 값을 추가할 수 있다. 상술한 예에 한하지 않고, 변환부(232)는, 제1 특징 정보 및 제2 특징 정보가 결합될 수 있도록, 다양한 방법을 통해, 제2 특징 정보를 변환시킬 수 있다.Also, according to an embodiment, the conversion unit 232 may be configured to combine the second feature information obtained by the non-regional feature extraction unit 231 with the first feature information by the combining unit 240. Can be converted to. For example, the converter 232 adjusts the order of feature values included in the second feature information so that feature values corresponding to each other in the first feature information and the second feature information can be combined in parallel, A new feature value can be added to the second feature information. Not limited to the above-described example, the conversion unit 232 may convert the second characteristic information through various methods so that the first characteristic information and the second characteristic information can be combined.
일 실시 예에 의한, 결합부(240)는, 지역적 특징 획득부(220) 및 비지역적 특징 획득부(230)에서 각각 획득된, 제1 특징 정보 및 제2 특징 정보를 서로 결합하여, 영상 시퀀스(210)에 대한 특징 정보를 최종적으로 획득할 수 있다. According to an embodiment of the present disclosure, the combining unit 240 combines the first characteristic information and the second characteristic information obtained from the regional feature acquisition unit 220 and the non-regional feature acquisition unit 230, respectively, to obtain an image sequence. The characteristic information for 210 may be finally obtained.
예를 들면, 결합부(240)는 이하 수학식 1에 따라서, 제1 특징 정보 및 제2 특징 정보를 서로 결합할 수 있다.For example, the combining unit 240 may combine the first characteristic information and the second characteristic information with each other according to Equation 1 below.
Figure PCTKR2019013609-appb-img-000001
Figure PCTKR2019013609-appb-img-000001
수학식 1에서, h k 와 F( n out)는 각각 제1 특징 정보 및 제2 특징 정보를 의미하고, n'은 결합부(240)에서 최종적으로 획득된 영상 시퀀스(210)에 대한 특징 정보를 나타낸다. 또한, n out 는 비지역적 특징 추출부(231)에 의해 획득된 값으로, 변환부(232)에 의해 n out 가 처리된 결과인 F( n out)가 결합부(240)로 전달될 수 있다. 수학식 1에서, 굵게 표시된 문자는, 벡터를 의미하여, 행렬과 같은 다수개의 값을 가짐을 나타낼 수 있다.In Equation 1, h k and F (n out) is each of the first characteristic information and second means the characteristic information, and n 'is the feature information for the video sequence 210 is obtained finally in the engaging portion 240 Indicates. In addition, n out is a value obtained by the non-regional feature extraction unit 231, and F( n out ), which is the result of processing n out by the conversion unit 232, may be transferred to the coupling unit 240. . In Equation 1, a bold character means a vector, and may indicate that it has multiple values, such as a matrix.
예를 들면, 결합부(240)에 의하여, 제1 특징 정보 및 제2 특징 정보에 포함된 특징 값들 중 서로 대응되는 특징 값들에 대한 대표값(ex. 평균값, 중간값 등)이 결정될 수 있고, 상기 결정된 대표 값을 포함하는 특징 정보가, 영상 시퀀스(210)에 대한 특징 정보로서, 획득될 수 있다. 상술한 예에 한하지 않고, 다양한 방법에 따라, 제1 특징 정보 및 제2 특징 정보에 기초하여, 영상 시퀀스(210)에 대한 특징 정보가 최종적으로 결정될 수 있다.For example, a representative value (ex. average value, median value, etc.) for feature values corresponding to each other among feature values included in the first feature information and the second feature information may be determined by the combining unit 240, Feature information including the determined representative value may be obtained as feature information for the image sequence 210. Without being limited to the above-described example, according to various methods, based on the first characteristic information and the second characteristic information, characteristic information on the image sequence 210 may be finally determined.
따라서, 일 실시 예에 의하면, 영상 시퀀스(210)의 길이가 상당히 길어지더라도, 영상 시퀀스(210)의 앞부분에 위치한 영상의 특징 정보도 다른 영상과의 유사도에 따라서 영상 시퀀스(210)의 캡션 정보를 생성하는데 적절히 반영될 수 있다.Accordingly, according to an embodiment, even if the length of the image sequence 210 is significantly increased, the feature information of the image located in the front portion of the image sequence 210 is also caption information of the image sequence 210 according to the similarity with other images It can be appropriately reflected in generating.
일 실시 예에 의한 캡션 생성부(250)는, 결합부(240)에 의해 결정된 영상 시퀀스(210)에 대한 특징 정보에 따라 영상 시퀀스(210)에 대한 캡션 정보를 생성할 수 있다. 일 실시 예에 의한 캡션 생성부(250)는, 소정의 영상에 대한 특징 정보의 입력으로, 상기 영상을 묘사하는 텍스트들을 생성할 수 있는, GRU(gated recurrent unit)을 포함할 수 있다. 상술한 예에 한하지 않고, 캡션 생성부(250)는, 다양한 방법을 통해, 영상 시퀀스(210)에 대한 캡션 정보를 생성할 수 있다.The caption generation unit 250 according to an embodiment may generate caption information for the image sequence 210 according to feature information on the image sequence 210 determined by the combining unit 240. The caption generator 250 according to an embodiment may include a gated recurrent unit (GRU) capable of generating texts describing the image as input of feature information for a predetermined image. The caption generation unit 250 may generate caption information for the image sequence 210 through various methods, not limited to the above-described example.
도 3은 일 실시 예에 따른 비지역적 특징 추출부(231)가 제2 특징 정보를 획득하는 방법의 일 예를 나타낸 도면이다.3 is a diagram illustrating an example of a method for the non-regional feature extraction unit 231 to obtain second feature information according to an embodiment.
상술한 수학식 1에서, n out 은 비지역적 특징 추출부(231)에 의해 획득되는 제2 특징 정보를 의미할 수 있다.In Equation 1 above, n out may mean second feature information obtained by the non-regional feature extraction unit 231.
도 3을 참조하면, 비지역적 특징 추출부(231)는, 영상 1 내지 4(231, 232, 233, 234)로부터 각 영상의 특징 정보로서, x 0, x 1, x 2 및 x 3를 획득할 수 있다. 또한, i 또는 j는 각 영상을 나타내는 식별 정보를 의미한다.Referring to FIG. 3, the non-regional feature extraction unit 231 acquires x 0 , x 1 , x 2 and x 3 as feature information of each image from images 1 to 4 (231, 232, 233, 234) can do. In addition, i or j means identification information representing each image.
일 실시 예에 의하면, 각 영상의 특징 정보들 간 유사도가, f(x i, x j)로서 획득될 수 있다. f는 유사도를 획득하기 위한 페어와이즈 함수(pairwise function)로, 다양한 형태로 정의될 수 있다. According to an embodiment, similarity between feature information of each image may be obtained as f(x i , x j ). f is a pairwise function for obtaining similarity, and may be defined in various forms.
예를 들어, 도 3에 도시된 것과 같이, 231-1에서, f(x 2, x 0), f(x 2, x 1), f(x 2, x 2), f(x 2, x 3)가 영상 3(233)와 영상 1, 2, 4(231, 232, 234) 간의 특징 정보에 대한 유사도로서 각각 획득될 수 있다. 영상 3(233)뿐만 아니라 나머지 영상 1, 2, 4(231, 232, 234)에 대하여도, 다른 영상과의 특징 정보들의 유사도가 동일하게 획득될 수 있다.For example, as shown in FIG. 3, in 231-1, f(x 2 , x 0 ), f(x 2 , x 1 ), f(x 2 , x 2 ), f(x 2 , x 3 ) may be obtained as similarities to feature information between the image 3 233 and the images 1, 2, and 4 (231, 232, 234), respectively. Similarity of feature information with other images may be obtained for the remaining images 1, 2, and 4 (231, 232, 234) as well as the image 3 (233).
각 영상에 대해 획득된 유사도 값에는, 도시된 예와 같이, 영상마다 다르게 결정될 수 있는 가중치 g( x i)가 적용될 수 있다. 따라서, 231-1에 따른 연산이 수행된 결과, 영상 3(233)에 대해 영상들 간의 유사도에 기초하여 연산된 값인, y 2가 획득될 수 있다.The similarity value obtained for each image may be applied with a weight g( x i ), which may be determined differently for each image, as shown in the example shown. Accordingly, as a result of performing the operation according to 231-1, y 2, which is a value calculated based on the similarity between images, may be obtained for the image 3 233.
일 실시 예에 따라, 231-1과 같이 연산될 수 있는, 영상 1 내지 영상 4(231, 232, 233, 234)에 대한 y i 값은, 이하 수학식 2에 따라서, 각 영상의 특징 정보들 간의 유사도 값에 기초하여,수행될 수 있다.According to an embodiment, the y i values for the images 1 to 4 (231, 232, 233, and 234), which can be calculated as 231-1, according to Equation 2 below, feature information of each image Based on the similarity value of the liver, it can be performed.
Figure PCTKR2019013609-appb-img-000002
Figure PCTKR2019013609-appb-img-000002
수학식 2에서,
Figure PCTKR2019013609-appb-img-000003
는 영상들의 특징 정보들 간 유사도를 의미하고,
Figure PCTKR2019013609-appb-img-000004
는 영상마다 다르게 적용될 수 있는 가중치 값을 나타낸다. y i는 영상 i에 대한 유사도에 기초하여 획득된 값으로, y i로부터 이하 수학식 5에 따라 유사도에 기초하여 획득된 영상 i에 대한 특징 정보를 나타내는 n i가 획득될 수 있다.
In Equation 2,
Figure PCTKR2019013609-appb-img-000003
Means the similarity between the feature information of the images,
Figure PCTKR2019013609-appb-img-000004
Indicates a weight value that can be applied differently for each image. y i is a value obtained based on the similarity to the image i, and n i indicating characteristic information about the image i obtained based on the similarity according to Equation 5 below may be obtained from y i .
또한, 수학식 2의
Figure PCTKR2019013609-appb-img-000005
Figure PCTKR2019013609-appb-img-000006
는 이하 수학식 3과 같이 나타낼 수 있다.
Also, Equation 2
Figure PCTKR2019013609-appb-img-000005
And
Figure PCTKR2019013609-appb-img-000006
Can be expressed as Equation 3 below.
Figure PCTKR2019013609-appb-img-000007
Figure PCTKR2019013609-appb-img-000007
또한, C(x)는, 정규화 요소(normalization factor)로, C(x)가
Figure PCTKR2019013609-appb-img-000008
로 설정되는 경우, 수학식 2는 아래 수학식 4와 같이 수정될 수 있다
In addition, C(x) is a normalization factor, and C(x) is
Figure PCTKR2019013609-appb-img-000008
When set to, Equation 2 may be modified as Equation 4 below.
Figure PCTKR2019013609-appb-img-000009
Figure PCTKR2019013609-appb-img-000009
도 3의 231-2는 수학식 2 또는 4에 따라 획득된 값인, y i에 대하여, 잔류 연결(Residual connection)을 적용하기 위한 구성으로, 아래 수학식 5와 같이 나타낼 수 있다. Reference numeral 231-2 of FIG. 3 is a configuration for applying residual connection to y i , which is a value obtained according to Equation 2 or 4, and may be expressed as Equation 5 below.
Figure PCTKR2019013609-appb-img-000010
Figure PCTKR2019013609-appb-img-000010
수학식 3, 4, 5에 포함된 W g, W θ, W φ, W z 는 각각 학습(trainable)될 수 있는 가중치 행렬을 의미한다. 수학식 5에 따른 동작을 통하여, 각각의 가중치 값들은 더 나은 방법으로 학습될 수 있다.W g , W θ , W φ , and W z included in Equations 3, 4, and 5 respectively mean a weighting matrix that can be trained. Through the operation according to equation (5), each weight value can be learned in a better way.
따라서, 일 실시 예에 의하면, 수학식 5에 따라, 영상 1 내지 영상 4(231, 232, 233, 234)에 대한 특징 정보인 x i 값은, 유사도에 기초하여 획득된 값인 y i 값에 기초하여, n i 값으로 수정될 수 있다.Accordingly, according to an embodiment, according to Equation 5, the x i value, which is characteristic information for the images 1 to 4 (231, 232, 233, 234) is based on the y i value, which is a value obtained based on similarity. Thus, it can be modified to the value of n i .
수학식 5에 의해 획득된 n i 는 이하 수학식 6에 따라서, 상술한 제2 특징 정보인, n out 으로 변환될 수 있다. n out 은 수학식 6 에 따른 방법에 한하지 않고, 다양한 방법을 통해 영상 1 내지 영상 4(231, 232, 233, 234)에 대하여 수정된 특징 정보들이 서로 결합됨으로써, 획득될 수 있다. N i obtained by Equation 5 may be converted to n out , which is the second feature information described above, according to Equation 6 below. n out is not limited to the method according to Equation 6, and can be obtained by combining the modified feature information for the images 1 to 4 (231, 232, 233, 234) through various methods.
[수학식 6][Equation 6]
Figure PCTKR2019013609-appb-img-000011
Figure PCTKR2019013609-appb-img-000011
n out 는 변환부(232)에 의해 변환된 F( n out)의 형태로, 영상 시퀀스에 대한 제2 특징 정보를 나타내며, 결합부(240)로 전달되어, 제1 특징 정보와 결합될 수 있다. n out is in the form of F( n out ) converted by the conversion unit 232, and represents the second characteristic information for the image sequence, and is transmitted to the combining unit 240, and may be combined with the first characteristic information. .
도 4는 일 실시 예에 의한 영상 시퀀스(210)에 대한 캡션 정보를 생성하는 전자 장치(1000)의 일 예를 나타내는 블록도이다.4 is a block diagram illustrating an example of an electronic device 1000 that generates caption information for an image sequence 210 according to an embodiment.
도 4의 비지역적 특징 획득부(430)는, 도 2의 비지역적 특징 획득부(230)와 대응되나, 비지역적 특징 획득부(430)로 입력되는 값이, 도 2와는 달리, 각 영상의 특징 정보가 특징 추출부 1 내지 4(221, 222, 223, 224)에 의해 처리된 값인 점에서 차이가 있다.The non-regional feature acquisition unit 430 of FIG. 4 corresponds to the non-regional feature acquisition unit 230 of FIG. 2, but a value input to the non-regional feature acquisition unit 430 is different from that of FIG. 2. There is a difference in that the feature information is a value processed by the feature extraction units 1 to 4 (221, 222, 223, 224).
일 실시 예에 의하면, 비지역적 특징 획득부(430)는, 제1 특징 정보를 획득하기 위하여, 지역적 특징 획득부(220)에 의해, 영상 1 내지 4(231, 232, 233, 234)의 특징 정보들이 순차적으로 처리될 때 마다 각각의 특징 추출부 1 내지 4(221, 222, 223, 224)로부터 획득되는 정보들 간의 유사도에 기초하여, 제2 특징 정보를 획득할 수 있다.According to one embodiment, the non-regional feature acquisition unit 430, by the regional feature acquisition unit 220, to obtain the first feature information, features of the images 1 to 4 (231, 232, 233, 234) When the information is sequentially processed, the second feature information may be obtained based on the similarity between information obtained from each feature extracting unit 1 to 4 (221, 222, 223, 224).
일 실시 예에 있어서, 지역적 특징 획득부(220)에서는, 영상 시퀀스(210)의 특징 정보를 획득하기 위하여 특징 추출부 1 내지 4(221, 222, 223, 224)에 의하여 각 영상의 특징 정보가 순차적으로 처리될 수 있다. In one embodiment, in the regional feature acquisition unit 220, feature information of each image is obtained by the feature extraction units 1 to 4 (221, 222, 223, 224) in order to acquire feature information of the image sequence 210. It can be processed sequentially.
예를 들어, 특징 추출부 1 (221)은, 영상 1의 특징 정보를 비지역적 특징 획득부(430)로 출력할 수 있다. 또한, 특징 추출부 2(222)은, 영상 1의 특징 정보 및 영상 2의 특징 정보로부터 판단되는, 영상 시퀀스(210)의 특징 정보를 비지역적 특징 획득부(430)로 출력할 수 있다. 또한, 특징 추출부 3(223)은, 특징 추출부 2(222)의 결과 및 영상 3의 특징 정보로부터 판단되는, 영상 시퀀스(210)의 특징 정보를 비지역적 특징 획득부(430)로 출력할 수 있다. 또한, 특징 추출부 4(224)은, 특징 추출부 3(223)의 결과 및 영상 4의 특징 정보로부터 판단되는, 영상 시퀀스(210)의 특징 정보를 비지역적 특징 획득부(430)로 출력할 수 있다.For example, the feature extraction unit 1 221 may output feature information of the image 1 to the non-regional feature acquisition unit 430. Also, the feature extraction unit 2 222 may output feature information of the image sequence 210, which is determined from the feature information of the image 1 and the feature information of the image 2, to the non-regional feature acquisition unit 430. Also, the feature extraction unit 3 223 may output feature information of the image sequence 210, which is determined from the result of the feature extraction unit 2 222 and the feature information of the image 3, to the non-regional feature acquisition unit 430. Can. Also, the feature extraction unit 4 224 outputs feature information of the image sequence 210, which is determined from the result of the feature extraction unit 3 223 and the feature information of the image 4, to the non-regional feature acquisition unit 430. Can.
일 실시 예에 의한 비지역적 특징 획득부(430)의 도 2의 비지역적 특징 획득부(230)의 동작과 동일하게, 특징 추출부 1 내지 4(221, 222, 223, 224)로부터 입력된 특징 정보들 간 유사도에 기초하여, 제2 특징 정보를 획득할 수 있다.In the same manner as the operation of the non-regional feature acquisition unit 230 of FIG. 2 of the non-regional feature acquisition unit 430 according to an embodiment, the features input from the feature extraction units 1 to 4 (221, 222, 223, 224) Based on the similarity between the information, the second characteristic information can be obtained.
도 5는 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 나타낸 블록도이다.5 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an embodiment.
도 6은 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 나타낸 블록도이다.6 is a block diagram showing an internal configuration of the electronic device 1000 according to an embodiment.
도 5를 참조하면, 전자 장치(1000)는, 메모리(1700), 프로세서(1300) 및 출력부(1200)를 포함할 수 있다. 그러나, 도 5에 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 5에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 도 5에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.Referring to FIG. 5, the electronic device 1000 may include a memory 1700, a processor 1300, and an output unit 1200. However, not all of the components illustrated in FIG. 5 are essential components of the electronic device 1000. The electronic device 1000 may be implemented by more components than those illustrated in FIG. 5, or the electronic device 1000 may be implemented by fewer components than those illustrated in FIG. 5.
예를 들면, 전자 장치(1000)는 도 6에 도시된 바와 같이, 일부 실시예에 따른 전자 장치(1000)는, 메모리(1700), 프로세서(1300) 및 출력부(1200) 이외에 사용자 입력부(1100), 센싱부(1400), 통신부(1500), 및 A/V 입력부(1600)를 더 포함할 수도 있다.For example, as illustrated in FIG. 6, the electronic device 1000 may include a user input unit 1100 in addition to the memory 1700, the processor 1300, and the output unit 1200, according to some embodiments. ), a sensing unit 1400, a communication unit 1500, and an A/V input unit 1600 may be further included.
사용자 입력부(1100)는, 사용자가 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.The user input unit 1100 refers to a means for a user to input data for controlling the electronic device 1000. For example, the user input unit 1100 includes a key pad, a dome switch, and a touch pad (contact capacitive type, pressure resistive film type, infrared sensing type, surface ultrasonic conduction type, integral type) Tension measurement method, piezo effect method, etc.), a jog wheel, a jog switch, and the like, but are not limited thereto.
일 실시 예에 의하면, 사용자 입력부(1100)는, 영상 시퀀스에 대한 캡션 정보를 생성하기 위한 사용자의 입력을 수신할 수 있다.According to an embodiment, the user input unit 1100 may receive a user input for generating caption information for an image sequence.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다. The output unit 1200 may output an audio signal, a video signal, or a vibration signal, and the output unit 1200 may include a display unit 1210, an audio output unit 1220, and a vibration motor 1230. have.
일 실시 예에 의한 출력부(1200)는, 영상 시퀀스에 대하여 생성된 캡션 정보에 기초한 정보를 출력할 수 있다. 예를 들면, 출력부(1200)는, 일 실시 예에 따라 생성된, 영상 시퀀스의 캡션 정보를 나타내는 텍스트를 출력할 수 있다. 또한, 출력부(1200)는, 일 실시 예에 따라 생성된, 영상 시퀀스의 캡션 정보를 나타내는 텍스트에 기초하여, 다양한 동작이 수행된 결과를 나타내는 정보를 출력할 수 있다.The output unit 1200 according to an embodiment may output information based on caption information generated for an image sequence. For example, the output unit 1200 may output text representing caption information of an image sequence, generated according to an embodiment. Further, the output unit 1200 may output information indicating a result of performing various operations based on text representing caption information of an image sequence, generated according to an embodiment.
디스플레이부(1210)는 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(1210)는, 영상 시퀀스에 대하여 캡션 정보가 생성된 결과를 표시할 수 있다. 또한, 디스플레이부(1210)는, 일 실시 예에 따라 생성된, 영상 시퀀스의 캡션 정보를 나타내는 텍스트에 기초하여, 다양한 동작이 수행된 결과를 나타내는 정보를 표시할 수 있다.The display unit 1210 displays and outputs information processed by the electronic device 1000. According to an embodiment, the display 1210 may display a result of generating caption information for an image sequence. Also, the display unit 1210 may display information indicating a result of performing various operations based on text representing caption information of an image sequence, generated according to an embodiment.
한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 전자 장치(1000)의 구현 형태에 따라 전자 장치(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다. Meanwhile, when the display unit 1210 and the touch pad are configured as a touch screen by forming a layer structure, the display unit 1210 may be used as an input device in addition to an output device. The display unit 1210 includes a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, and a three-dimensional display ( 3D display), and an electrophoretic display (electrophoretic display). Also, according to the implementation form of the electronic device 1000, the electronic device 1000 may include two or more display units 1210.
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다.The audio output unit 1220 outputs audio data received from the communication unit 1500 or stored in the memory 1700.
진동 모터(1230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다.The vibration motor 1230 may output a vibration signal. Also, the vibration motor 1230 may output a vibration signal when a touch is input to the touch screen.
프로세서(1300)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. 전자 장치(1000)는 적어도 하나의 프로세서(1300)를 포함할 수 있다.The processor 1300 typically controls the overall operation of the electronic device 1000. For example, the processor 1300, by executing programs stored in the memory 1700, the user input unit 1100, the output unit 1200, the sensing unit 1400, the communication unit 1500, the A/V input unit 1600 ) Etc. can be controlled overall. The electronic device 1000 may include at least one processor 1300.
프로세서(1300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1700)로부터 프로세서(1300)에 제공되거나, 통신부(1500)를 통해 수신되어 프로세서(1300)로 제공될 수 있다. 예를 들면 프로세서(1300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.The processor 1300 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations. The command may be provided to the processor 1300 from the memory 1700 or may be received through the communication unit 1500 and provided to the processor 1300. For example, the processor 1300 may be configured to execute instructions according to program code stored in a recording device such as memory.
일 실시 예에 의한 적어도 하나의 프로세서(1300)는 영상 시퀀스에 대한 캡션 정보를 생성하기 위한 동작을 수행할 수 있다. 일 실시 예에 의한 적어도 하나의 프로세서(1300)는 영상 시퀀스에 포함된 복수 개의 영상을 이용하여, 영상 시퀀스의 특징에 관한 제1 특징 정보 및 제2 특징 정보를 획득하고, 제1 특징 정보 및 제2 특징 정보에 기초하여, 영상 시퀀스에 대한 캡션 정보를 생성할 수 있다.The at least one processor 1300 according to an embodiment may perform an operation for generating caption information for an image sequence. At least one processor 1300 according to an embodiment acquires first characteristic information and second characteristic information regarding characteristics of an image sequence by using a plurality of images included in an image sequence, and the first characteristic information and the first Based on the 2 feature information, caption information for the image sequence can be generated.
일 실시 예에 의한 제1 특징 정보는, 상기 복수 개의 영상들의 특징 정보들이, 영상 순서에 따라 순차적으로 처리됨에 기초하여, 결정된, 영상 시퀀스의 특징에 관한 정보를 포함할 수 있다. The first characteristic information according to an embodiment may include information on characteristics of an image sequence determined based on the feature information of the plurality of images sequentially processed according to an image order.
또한, 일 실시 예에 의한 제2 특징 정보는, 상기 복수 개의 영상들의 특징 정보들 간의 적어도 하나의 유사도에 기초하여, 결정된 영상 시퀀스의 특징에 관한 정보를 포함할 수 있다. 예를 들면, 제2 특징 정보는, 상기 적어도 하나의 유사도 값에 기초하여 수정된 복수 개의 영상 각각에 대한 특징 정보들이 서로 결합됨으로써, 획득될 수 있다.In addition, the second characteristic information according to an embodiment may include information on characteristics of the determined image sequence based on at least one similarity between the characteristic information of the plurality of images. For example, the second feature information may be obtained by combining feature information for each of a plurality of images corrected based on the at least one similarity value.
센싱부(1400)는, 전자 장치(1000)의 상태 또는 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다. The sensing unit 1400 may detect a state of the electronic device 1000 or a state around the electronic device 1000 and transmit the sensed information to the processor 1300.
센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. The sensing unit 1400 includes a magnetic sensor 1410, an acceleration sensor 1420, a temperature/humidity sensor 1430, an infrared sensor 1440, a gyroscope sensor 1450, and a position sensor (Eg, GPS) 1460, an air pressure sensor 1470, a proximity sensor 1480, and an RGB sensor (illuminance sensor) 1490, but may include at least one.
통신부(1500)는, 전자 장치(1000)가 서버(미도시) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다. The communication unit 1500 may include one or more components that allow the electronic device 1000 to communicate with a server (not shown) or an external device (not shown). For example, the communication unit 1500 may include a short-range communication unit 1510, a mobile communication unit 1520, and a broadcast reception unit 1530.
일 실시 예에 의한 통신부(1500)는 영상 시퀀스에 대한 캡션 정보를 생성하는데 필요한 정보를 외부로부터 수신할 수 있다. 예를 들면, 통신부(1500)는, 캡션 정보를 생성하기 위한 영상 시퀀스를 외부로부터 수신할 수 있다.The communication unit 1500 according to an embodiment may receive information required to generate caption information for an image sequence from the outside. For example, the communication unit 1500 may receive an image sequence for generating caption information from the outside.
또한, 일 실시 예에 의한 통신부(1500)는 적어도 하나의 프로세서(1300)에 의해 생성된 캡션 정보를 외부로 전송할 수 있다.Also, the communication unit 1500 according to an embodiment may transmit caption information generated by at least one processor 1300 to the outside.
근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. The short-range wireless communication unit 1510 includes a Bluetooth communication unit, a Bluetooth Low Energy (BLE) communication unit, a Near Field Communication unit, a WLAN (Wi-Fi) communication unit, a Zigbee communication unit, and an infrared ray ( IrDA, an infrared data association (WDA) communication unit, a WFD (Wi-Fi Direct) communication unit, a UWB (ultra wideband) communication unit, an Ant+ communication unit, and the like, but are not limited thereto.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.The mobile communication unit 1520 transmits and receives a wireless signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network. Here, the wireless signal may include various types of data according to transmission and reception of a voice call signal, a video call signal, or a text/multimedia message.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 전자 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.The broadcast receiving unit 1530 receives a broadcast signal and/or broadcast related information from the outside through a broadcast channel. The broadcast channel may include a satellite channel and a terrestrial channel. Depending on the implementation example, the electronic device 1000 may not include the broadcast receiving unit 1530.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다. 마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다.The A/V (Audio/Video) input unit 1600 is for inputting an audio signal or a video signal, which may include a camera 1610 and a microphone 1620. The camera 1610 may obtain a video frame such as a still image or a video through an image sensor in a video call mode or a shooting mode. The image captured through the image sensor may be processed through the processor 1300 or a separate image processing unit (not shown). The microphone 1620 receives external sound signals and processes them as electrical voice data.
일 실시 예에 의하면, A/V 입력부(1600)에 의해 영상이 촬영됨으로써, 캡션 정보가 생성될 수 있는 영상 시퀀스가 획득될 수 있다. According to an embodiment, an image sequence in which caption information may be generated may be obtained by capturing an image by the A/V input unit 1600.
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다. The memory 1700 may store a program for processing and controlling the processor 1300, and may store data input to or output from the electronic device 1000.
일 실시 예에 의한 메모리(1700)는 하나 이상의 인스트럭션을 저장할 수 있고, 상술한 전자 장치(1000)의 적어도 하나의 프로세서(1300)는 상기 메모리(1700)에 저장된 상기 하나 이상의 인스트럭션을 실행함으로써, 일 실시 예에 의한 동작을 수행할 수 있다.The memory 1700 according to an embodiment may store one or more instructions, and the at least one processor 1300 of the above-described electronic device 1000 executes the one or more instructions stored in the memory 1700 to perform one or more instructions. The operation according to the embodiment may be performed.
또한, 일 실시 예에 의한 메모리(1700)는 일 실시 예에 따라 영상 시퀀스의 캡션 정보를 생성하는데 필요한 정보를 저장할 수 있다. 예를 들면, 메모리(1700)는 캡션 정보가 생성될 수 있는, 적어도 하나의 영상 시퀀스를 저장할 수 있다. 메모리(1700)에 저장된 영상 시퀀스는 A/V 입력부(1600)에 의해 획득된 영상 시퀀스 및 외부로부터 수신된 영상 시퀀스 중 적어도 하나일 수 있다.Also, the memory 1700 according to an embodiment may store information necessary to generate caption information of an image sequence according to an embodiment. For example, the memory 1700 may store at least one image sequence in which caption information can be generated. The image sequence stored in the memory 1700 may be at least one of an image sequence obtained by the A/V input unit 1600 and an image sequence received from the outside.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. The memory 1700 is a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (for example, SD or XD memory, etc.), RAM (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (ROM, Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , It may include at least one type of storage medium of the optical disk.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다. Programs stored in the memory 1700 may be classified into a plurality of modules according to their functions, for example, a UI module 1710, a touch screen module 1720, and a notification module 1730. .
UI 모듈(1710)은, 애플리케이션 별로 전자 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.The UI module 1710 may provide specialized UIs, GUIs, and the like interlocked with the electronic device 1000 for each application. The touch screen module 1720 may detect a touch gesture on the user's touch screen and transfer information regarding the touch gesture to the processor 1300. The touch screen module 1720 according to some embodiments may recognize and analyze a touch code. The touch screen module 1720 may be configured with separate hardware including a controller.
터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.Various sensors may be provided inside or near the touch screen to sense a touch or proximity touch of the touch screen. A tactile sensor is an example of a sensor for sensing a touch of a touch screen. A tactile sensor is a sensor that senses the contact of a specific object with or above a human level. The tactile sensor can detect various information such as the roughness of the contact surface, the hardness of the contact object, and the temperature of the contact point.
사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.The user's touch gesture may include tap, touch & hold, double tap, drag, pan, flick, drag and drop, swipe, and the like.
알림 모듈(1730)은 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.The notification module 1730 may generate a signal for notifying the occurrence of an event in the electronic device 1000.
도 7은 일 실시 예에 의한 영상 시퀀스에 대한 캡션 정보를 생성하는 방법을 나타낸 순서도이다.7 is a flowchart illustrating a method of generating caption information for an image sequence according to an embodiment.
도 7을 참조하면, 단계 710에서 전자 장치(1000)는 영상 시퀀스에 포함된 복수 개의 영상 각각에 대하여 특징 정보를 추출할 수 있다. 일 실시 예에 따른 복수 개의 영상들의 특징 정보는, 각 영상의 비주얼적 특징을 나타내는 다양한 정보 및 상기 비주얼적 특징을 나타내는 정보가 데이터 인식 모델에 입력됨으로써 각 영상이 인식된 결과에 관한 정보 중 적어도 하나의 정보를 포함할 수 있다. Referring to FIG. 7, in operation 710, the electronic device 1000 may extract feature information for each of a plurality of images included in the image sequence. The characteristic information of a plurality of images according to an embodiment includes at least one of various information representing visual characteristics of each image and information regarding a result of each image being recognized by inputting the information representing the visual characteristics into a data recognition model. It may contain information.
단계 720에서, 전자 장치(1000)는 단계 710에서 추출된 특징 정보들이 영상의 순서에 따라 순차적으로 처리함으로써, 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는, 영상 시퀀스에서의 각 영상의 순서에 따라 순차적으로, 각 영상의 특징 정보를 처리함으로써, 영상 시퀀스에 대한 특징 정보로서, 제1 특징 정보를 획득할 수 있다. In operation 720, the electronic device 1000 may obtain first characteristic information regarding the characteristics of the image sequence by sequentially processing the characteristic information extracted in operation 710 according to the order of the images. According to an embodiment of the present disclosure, the electronic device 1000 obtains first feature information as feature information for the image sequence by sequentially processing feature information of each image according to the order of each image in the image sequence. Can.
일 실시 예에 의한 전자 장치(1000)는 복수 개의 영상에 대한 특징 정보들로부터 복수 개의 영상을 포함한 영상 시퀀스의 특징 정보를 획득하기 위한 데이터 학습 모델을 이용하여, 제1 특징 정보를 획득할 수 있다.The electronic device 1000 according to an embodiment may acquire first feature information by using a data learning model for obtaining feature information of an image sequence including a plurality of images from feature information for a plurality of images. .
일 실시 예에 의한 제1 특징 정보는, 각 영상의 순서가 고려됨으로써 획득된 영상 시퀀스에 대한 특징 정보를 포함할 수 있다.The first feature information according to an embodiment may include feature information about an image sequence obtained by considering the order of each image.
단계 730에서, 전자 장치(1000)는 단계 710에서 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 제2 특징 정보를 획득할 수 있다. In operation 730, the electronic device 1000 may obtain the second characteristic information based on at least one similarity between the characteristic information extracted in operation 710.
일 실시 예에 의한 전자 장치(1000)는 복수 개의 영상을 포함한 영상 시퀀스의 특징 정보를 획득하기 위하여, 복수 개의 영상들의 특징 정보들 간의 적어도 하나의 유사도 값을 이용하여, 제2 특징 정보를 획득할 수 있다. 예를 들면, 제2 특징 정보는, 상기 적어도 하나의 유사도 값에 기초하여 수정된 복수 개의 영상 각각에 대한 특징 정보들이 서로 결합됨으로써, 획득될 수 있다.The electronic device 1000 according to an embodiment obtains second feature information by using at least one similarity value between feature information of a plurality of images in order to obtain feature information of an image sequence including a plurality of images Can. For example, the second feature information may be obtained by combining feature information for each of a plurality of images corrected based on the at least one similarity value.
일 실시 예에 의한 제2 특징 정보는, 제1 특징 정보와는 달리, 각 영상의 순서에 대한 고려 없이 획득된, 영상 시퀀스에 대한 특징 정보를 포함할 수 있다.Unlike the first feature information, the second feature information according to an embodiment may include feature information about an image sequence, obtained without considering the order of each image.
단계 740에서, 전자 장치(1000)는 단계 720 및 단계 730에서 획득된 제1 특징 정보 및 제2 특징 정보에 기초하여, 캡션 정보를 생성할 수 있다. In operation 740, the electronic device 1000 may generate caption information based on the first characteristic information and the second characteristic information obtained in steps 720 and 730.
일 실시 예에 의하면, 제2 특징 정보는, 제1 특징 정보와 결합되기 전에, 제1 특징 정보와 결합될 수 있는 형태로 변환될 수 있다. According to an embodiment, the second characteristic information may be converted into a form that can be combined with the first characteristic information before being combined with the first characteristic information.
또한, 일 실시 예에 의하면, 제1 특징 정보 및 제2 특징 정보에 포함된 특징 값들 중 서로 대응되는 특징 값들에 대한 대표값에 기초하여, 제1 특징 정보 및 상기 제2 특징 정보가 서로 결합될 수 있다. 예를 들면, 결합된 정보는, 제1 특징 정보 및 제2 특징 정보에서, 각각 대응되는 특징 값들의 대표값들을 포함할 수 있다.In addition, according to an embodiment, the first characteristic information and the second characteristic information may be combined with each other based on a representative value of characteristic values corresponding to each other among feature values included in the first characteristic information and the second characteristic information. Can. For example, the combined information may include representative values of corresponding characteristic values, respectively, in the first characteristic information and the second characteristic information.
일 실시 예에 의하면, 전자 장치(1000)는 제1 특징 정보 및 제2 특징 정보가 결합된 정보를, 최종적인 영상 시퀀스에 대한 특징 정보로 획득할 수 있다. 전자 장치(1000)는 최종적인 영상 시퀀스에 대한 특징 정보에 기초하여, 캡션 정보를 생성할 수 있다.According to an embodiment of the present disclosure, the electronic device 1000 may obtain information combining the first characteristic information and the second characteristic information as characteristic information for the final image sequence. The electronic device 1000 may generate caption information based on the feature information for the final image sequence.
일 실시 예에 의하면, 길이가 긴 영상 시퀀스의 경우에도, 영상 시퀀스 앞 부분의 영상들에 관한 특징이 적절히 반영된, 캡션 정보가 생성될 수 있다.According to an embodiment, even in the case of a long video sequence, caption information may be generated in which characteristics related to images in front of the video sequence are properly reflected.
일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 또는 프로그램 모듈을 포함하며, 임의의 정보 전달 매체를 포함한다. One embodiment may also be embodied in the form of a recording medium comprising instructions executable by a computer, such as program modules, being executed by a computer. Computer readable media can be any available media that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media. In addition, computer-readable media may include both computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media typically includes computer readable instructions, data structures, or program modules, and includes any information delivery media.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.Also, in this specification, the “unit” may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustration only, and those skilled in the art to which the present invention pertains can understand that the present invention can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the following claims rather than the above detailed description, and it should be interpreted that all changes or modified forms derived from the meaning and scope of the claims and equivalent concepts thereof are included in the scope of the present invention. do.

Claims (15)

  1. 전자 장치에서, 영상 시퀀스에 대한 캡션(caption) 정보를 생성하는 방법에 있어서,In the electronic device, in the method for generating caption (caption) information for the video sequence,
    상기 영상 시퀀스에 포함된 복수 개의 영상들을 획득하는 단계;Obtaining a plurality of images included in the image sequence;
    상기 복수 개의 영상 각각에 대하여 특징 정보를 추출하는 단계;Extracting feature information for each of the plurality of images;
    상기 추출된 특징 정보들을 상기 복수 개의 영상들의 순서에 따라 순차적으로 처리함으로써, 상기 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득하는 단계; Obtaining first feature information regarding features of the image sequence by sequentially processing the extracted feature information according to the order of the plurality of images;
    상기 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 결정된 상기 영상 시퀀스의 특징에 관한 제2 특징 정보를 획득하는 단계; 및Obtaining second feature information on features of the image sequence determined based on at least one similarity between the extracted feature information; And
    상기 제1 특징 정보 및 상기 제2 특징 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는 단계를 포함하는, 방법.And generating caption information for the video sequence based on the first feature information and the second feature information.
  2. 제1항에 있어서, 상기 제2 특징 정보를 획득하는 단계는The method of claim 1, wherein the obtaining of the second characteristic information
    상기 적어도 하나의 유사도 값에 기초하여, 상기 복수 개의 영상 각각에 대한 특징 정보를 수정하는 단계; 및Modifying feature information for each of the plurality of images based on the at least one similarity value; And
    상기 복수 개의 영상 각각에 대하여 수정된 특징 정보에 기초하여, 상기 제2 특징 정보를 획득하는 단계를 포함하는, 방법.And acquiring the second characteristic information based on the modified characteristic information for each of the plurality of images.
  3. 제2항에 있어서, 상기 제2 특징 정보는The method of claim 2, wherein the second feature information
    상기 복수 개의 영상 각각에 대하여 수정된 특징 정보들이 결합 연산(concatenation operation)을 통해 서로 결합됨으로써, 획득되는, 방법.A method for obtaining, by combining feature information corrected for each of the plurality of images by combining each other through a concatenation operation.
  4. 제1항에 있어서, 상기 캡션 정보를 생성하는 단계는The method of claim 1, wherein generating the caption information is
    상기 제1 특징 정보 및 상기 제2 특징 정보를 결합하는 단계; 및Combining the first characteristic information and the second characteristic information; And
    상기 결합된 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는 단계를 포함하는, 방법.And generating caption information for the video sequence based on the combined information.
  5. 제4항에 있어서, 상기 제2 특징 정보는,The method of claim 4, wherein the second characteristic information,
    상기 제1 특징 정보와 결합될 수 있는 형태로 변환된 후, 상기 제1 특징 정보와 결합되는, 방법.After being converted into a form that can be combined with the first characteristic information, the method is combined with the first characteristic information.
  6. 제4항에 있어서, According to claim 4,
    상기 제1 특징 정보 및 상기 제2 특징 정보에 포함된 특징 값들 중, 서로 대응되는 특징 값들에 대한 대표값에 기초하여, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합되는, 방법.Among the feature values included in the first feature information and the second feature information, the first feature information and the second feature information are combined based on representative values for feature values corresponding to each other.
  7. 제1항에 있어서, 상기 적어도 하나의 유사도는The method of claim 1, wherein the at least one similarity
    상기 복수 개의 영상의 특징 정보들 대신, 상기 제1 특징 정보를 획득하기 위하여, 상기 복수 개의 영상의 특징 정보들이 순차적으로 처리될 때마다 획득되는 정보들에 기초하여, 획득되는, 방법.In order to obtain the first feature information instead of the feature information of the plurality of images, the method is obtained, based on information obtained whenever the feature information of the plurality of images is sequentially processed.
  8. 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치는,An electronic device that generates caption information for an image sequence,
    상기 영상 시퀀스에 포함된 복수 개의 영상들을 저장하는 메모리;A memory for storing a plurality of images included in the image sequence;
    상기 복수 개의 영상 각각에 대하여 특징 정보를 추출하고, 상기 추출된 특징 정보들을 상기 복수 개의 영상들의 순서에 따라 순차적으로 처리함으로써, 상기 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득하고, 상기 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 결정된 상기 영상 시퀀스의 특징에 관한 제2 특징 정보를 획득하고, 상기 제1 특징 정보 및 상기 제2 특징 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는, 적어도 하나의 프로세서; 및Feature information is extracted for each of the plurality of images, and the extracted feature information is sequentially processed according to the order of the plurality of images to obtain first feature information regarding features of the image sequence, and the extracted Acquire second feature information regarding the feature of the image sequence determined based on at least one similarity between feature information, and obtain caption information for the image sequence based on the first feature information and the second feature information. Generating, at least one processor; And
    상기 생성된 캡션 정보에 기초한 정보를 출력하는 출력부를 포함하는, 전자 장치.And an output unit configured to output information based on the generated caption information.
  9. 제8항에 있어서, 상기 적어도 하나의 프로세서는The method of claim 8, wherein the at least one processor
    상기 적어도 하나의 유사도 값에 기초하여, 상기 복수 개의 영상 각각에 대한 특징 정보를 수정하고, 상기 복수 개의 영상 각각에 대하여 수정된 특징 정보에 기초하여, 상기 제2 특징 정보를 획득하는, 전자 장치.An electronic device that modifies characteristic information for each of the plurality of images based on the at least one similarity value, and acquires the second characteristic information based on the modified characteristic information for each of the plurality of images.
  10. 제9항에 있어서, 상기 제2 특징 정보는The method of claim 9, wherein the second characteristic information
    상기 복수 개의 영상 각각에 대하여 수정된 특징 정보들이 결합 연산을 통해 서로 결합됨으로써, 획득되는, 전자 장치.An electronic device obtained by combining feature information corrected for each of the plurality of images through a combination operation.
  11. 제8항에 있어서, 상기 적어도 하나의 프로세서는The method of claim 8, wherein the at least one processor
    상기 제1 특징 정보 및 상기 제2 특징 정보를 결합하고, 상기 결합된 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는, 전자 장치.An electronic device that combines the first characteristic information and the second characteristic information and generates caption information for the image sequence based on the combined information.
  12. 제11항에 있어서, 상기 제2 특징 정보는,The method of claim 11, wherein the second characteristic information,
    상기 제1 특징 정보와 결합될 수 있는 형태로 변환된 후, 상기 제1 특징 정보와 결합되는, 전자 장치.An electronic device that is converted into a form that can be combined with the first characteristic information and then combined with the first characteristic information.
  13. 제11항에 있어서, 상기 제1 특징 정보 및 상기 제2 특징 정보에 각각 포함된, 서로 대응되는 특징 값들에 대한 대표값에 기초하여, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합되는, 전자 장치.The method according to claim 11, wherein the first characteristic information and the second characteristic information are combined based on representative values of characteristic values corresponding to each other, respectively included in the first characteristic information and the second characteristic information, Electronic devices.
  14. 제8항에 있어서, 상기 적어도 하나의 유사도는The method of claim 8, wherein the at least one similarity
    상기 복수 개의 영상의 특징 정보들 대신, 상기 제1 특징 정보를 획득하기 위하여, 상기 복수 개의 영상의 특징 정보들이 순차적으로 처리될 때마다 획득되는 정보들에 기초하여, 획득되는, 전자 장치.In order to obtain the first feature information instead of the feature information of the plurality of images, the electronic device is obtained based on information obtained whenever the feature information of the plurality of images is sequentially processed.
  15. 제 1항 내지 제 7항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.A computer-readable recording medium in which a program for implementing the method of any one of claims 1 to 7 is recorded.
PCT/KR2019/013609 2019-01-30 2019-10-16 Electronic device generating caption information for video sequence and operation method thereof WO2020159036A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962798603P 2019-01-30 2019-01-30
US62/798,603 2019-01-30
KR1020190060221A KR20200094607A (en) 2019-01-30 2019-05-22 Electronic device and operating method for generating caption information for a image sequence
KR10-2019-0060221 2019-05-22

Publications (1)

Publication Number Publication Date
WO2020159036A1 true WO2020159036A1 (en) 2020-08-06

Family

ID=71840191

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/013609 WO2020159036A1 (en) 2019-01-30 2019-10-16 Electronic device generating caption information for video sequence and operation method thereof

Country Status (1)

Country Link
WO (1) WO2020159036A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS555723B2 (en) * 1972-03-15 1980-02-08
JP2016086245A (en) * 2014-10-23 2016-05-19 キヤノン株式会社 Image processing device, image processing system, image processing device control method, and program
KR20170077429A (en) * 2015-12-28 2017-07-06 전자부품연구원 Saliency Map Generation Method and System based on Video Analysis
KR20170082955A (en) * 2016-01-07 2017-07-17 한국전자통신연구원 Scene boundary detection method for using multi feature of broadcast contents and user apparatus for performing the method
US9792534B2 (en) * 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
KR20170121664A (en) * 2016-04-25 2017-11-02 한국과학기술원 Method and apparatus for multiple image information generation and the processing for optimal recognition performance in a deep learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS555723B2 (en) * 1972-03-15 1980-02-08
JP2016086245A (en) * 2014-10-23 2016-05-19 キヤノン株式会社 Image processing device, image processing system, image processing device control method, and program
KR20170077429A (en) * 2015-12-28 2017-07-06 전자부품연구원 Saliency Map Generation Method and System based on Video Analysis
KR20170082955A (en) * 2016-01-07 2017-07-17 한국전자통신연구원 Scene boundary detection method for using multi feature of broadcast contents and user apparatus for performing the method
US9792534B2 (en) * 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
KR20170121664A (en) * 2016-04-25 2017-11-02 한국과학기술원 Method and apparatus for multiple image information generation and the processing for optimal recognition performance in a deep learning

Similar Documents

Publication Publication Date Title
WO2020085694A1 (en) Image-capturing device and method for controlling same
WO2018117704A1 (en) Electronic apparatus and operation method thereof
WO2018117428A1 (en) Method and apparatus for filtering video
WO2018212494A1 (en) Method and device for identifying object
WO2020080773A1 (en) System and method for providing content based on knowledge graph
WO2019182346A1 (en) Electronic device for modulating user voice using artificial intelligence model and control method thereof
WO2020060223A1 (en) Device and method for providing application translation information
WO2018212538A1 (en) Electronic device and method of detecting driving event of vehicle
WO2017213398A1 (en) Learning model for salient facial region detection
WO2019164232A1 (en) Electronic device, image processing method thereof, and computer-readable recording medium
EP3602497A1 (en) Electronic device and method of detecting driving event of vehicle
WO2019059505A1 (en) Method and apparatus for recognizing object
EP3539056A1 (en) Electronic apparatus and operation method thereof
WO2018117538A1 (en) Method for estimating lane information, and electronic device
WO2019231130A1 (en) Electronic device and control method therefor
WO2018182201A1 (en) Method and device for providing response to voice input of user
WO2021101134A1 (en) Electronic apparatus and control method thereof
WO2019172642A1 (en) Electronic device and method for measuring heart rate
EP3652631A1 (en) System and method of determining input characters based on swipe input
WO2020159241A1 (en) Method for processing image, and apparatus therefor
EP3545685A1 (en) Method and apparatus for filtering video
WO2019190171A1 (en) Electronic device and control method therefor
WO2020130274A1 (en) Electronic device for recognizing object in image, and operation method thereof
WO2019151689A1 (en) Electronic device and control method therefor
WO2021049730A1 (en) Electronic device training image recognition model and operation method for same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19913412

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19913412

Country of ref document: EP

Kind code of ref document: A1