WO2024091084A1 - Reference scene recommendation method and reference scene recommendation device for automatic video generation - Google Patents

Reference scene recommendation method and reference scene recommendation device for automatic video generation Download PDF

Info

Publication number
WO2024091084A1
WO2024091084A1 PCT/KR2023/016939 KR2023016939W WO2024091084A1 WO 2024091084 A1 WO2024091084 A1 WO 2024091084A1 KR 2023016939 W KR2023016939 W KR 2023016939W WO 2024091084 A1 WO2024091084 A1 WO 2024091084A1
Authority
WO
WIPO (PCT)
Prior art keywords
reference scene
scene
tags
tag
scenes
Prior art date
Application number
PCT/KR2023/016939
Other languages
French (fr)
Korean (ko)
Inventor
권석면
김유석
Original Assignee
주식회사 일만백만
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 일만백만 filed Critical 주식회사 일만백만
Publication of WO2024091084A1 publication Critical patent/WO2024091084A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Definitions

  • This disclosure relates to a reference scene recommendation method and reference scene recommendation device for automatic video generation. More specifically, by dividing the video into scenes to create multiple reference scenes and assigning tags to each reference scene, when a keyword is received from the automatic video generation device, the reference scene to which the tag corresponding to the keyword is assigned is recommended. This relates to a reference scene recommendation method and reference scene recommendation device for automatic video creation.
  • the problem that the present disclosure aims to solve is to divide the video into scene units to generate a plurality of reference scenes and assign tags to each reference scene, so that when a keyword is received from an automatic video generation device, the tag corresponding to the keyword is
  • the aim is to provide a reference scene recommendation method and reference scene recommendation device for automatically generating a video that can recommend assigned reference scenes.
  • a reference scene recommendation method includes dividing collected images into scene units to generate a plurality of reference scenes; extracting feature information by analyzing the plurality of reference scenes and assigning different types of tags to the plurality of reference scenes based on this; and storing a plurality of reference scenes to which the tags are assigned in a reference scene database.
  • the step of allocating different types of tags to the plurality of reference scenes includes extracting feature information of an object included in the reference scene, extracting a feature descriptor expressing the feature information of the object as a vector value, and assigning an object attribute tag to the reference scene according to a feature descriptor; applying the reference scene to a scene type analysis model to extract the type of situation expressed in the reference scene, and assigning a situation attribute tag to the reference scene according to the type of situation; and extracting a highlight portion from the collected video and assigning a highlight attribute tag to a reference scene corresponding to the highlight portion among a plurality of reference scenes stored in the reference scene database.
  • a reference scene recommendation device includes one or more processors; and a memory including instructions configured to cause the one or more processors to execute operations, wherein the operations include dividing the collected images into scenes to generate a plurality of reference scenes. thing; analyzing the plurality of reference scenes to extract feature information and assigning different types of tags to the plurality of reference scenes based on this; And it may include storing a plurality of reference scenes to which the tags are assigned in a reference scene database.
  • Assigning different types of tags to each of the plurality of reference scenes includes extracting feature information of an object included in the reference scene, extracting a feature descriptor expressing the feature information of the object as a vector value, and extracting the feature assigning object attribute tags to the reference scene according to a descriptor; applying the reference scene to a scene type analysis model to extract the type of situation expressed in the reference scene, and assigning a situation attribute tag to the reference scene according to the type of situation; and extracting a highlight portion from the collected video and assigning a highlight attribute tag to a reference scene corresponding to the highlight portion among a plurality of reference scenes stored in the reference scene database.
  • the video is divided into scene units to generate a plurality of reference scenes, and tags are assigned to each reference scene to automatically generate the video.
  • tags are assigned to each reference scene to automatically generate the video.
  • FIG. 1 is a diagram illustrating an automatic video generation system according to an embodiment of the present disclosure.
  • Figure 2 is a diagram illustrating an automatic video generation device according to an embodiment of the present disclosure.
  • Figure 3 is a diagram illustrating a reference scene recommendation device according to an embodiment of the present disclosure.
  • 4 to 7 are diagrams for explaining the operation of a reference scene recommendation device according to an embodiment of the present disclosure.
  • Figure 8 is a flow chart illustrating a reference scene recommendation method for automatic video generation according to an embodiment of the present disclosure.
  • FIG. 1 is a diagram illustrating an automatic video generation system according to an embodiment of the present disclosure.
  • the automatic video generation system may include an automatic video generation device 200, a reference scene recommendation device 300, one or more customer terminals 400, and one or more user terminals 500.
  • Customer terminal 400 may refer to an electronic device used by customers such as advertisers.
  • the user terminal 500 may refer to an electronic device used by general users other than advertisers.
  • the customer can input the video generation reference information needed to automatically generate the video into the customer terminal 400, and the customer terminal 400 can transmit the video generation reference information input by the customer to the automatic video creation device 200.
  • the image generation reference information may be a keyword in word units.
  • the automatic video generation device 200 can automatically generate videos, such as advertising videos, according to customer requests. Specifically, when video generation reference information is received from the customer terminal 400, the automatic video creation device 200 may generate a script using the received video generation reference information and a pre-generated script database.
  • the script database may store one or more attributes related to a keyword and text matching each attribute.
  • one or more properties related to a keyword include object properties of the object corresponding to the keyword, screen properties of the scene matching the object, situation properties of the scene matching the object, and highlight properties of the scene matching the object.
  • the automatic video generation device 200 may generate a script of a reference scene using text that matches an attribute determined based on user behavior information using customer-related content among one or more attributes related to a keyword.
  • the automatic video generation device 200 may generate a scenario consisting of a reference scene based on the script.
  • the automatic video creation device 200 can extract keywords from the script. More specifically, the automatic video generation device 200 can extract words from the text of the script based on spaces. And, based on a database of frequency values for each word created in advance, the frequency values of the extracted words can be measured.
  • a token may include a pair of words and morpheme values, and may be assigned a label indicating a frequency value.
  • the automatic video generating device 200 has (frequency value: 1000, (word, morpheme value)), (frequency value: 234, (word, morpheme)), (frequency value: 2541, (word, morpheme) ), and (frequency value: 2516, (word, morpheme)) can be created.
  • the automatic video generating device 200 may assign different weights to each token according to the word of each token and/or the label of each token.
  • the automatic video generation device 200 determines the type of language that implements the words in the token (e.g., English, Chinese, Korean, etc.), the position of the words within the text of the script, and/or the characters assigned to the token.
  • different weights can be assigned to each token.
  • the automatic video generation device 200 may calculate the first weight using the total number of tokens generated from the text of the script and the order of each token.
  • the automatic video generation device 200 calculates the order of the current token based on the total number of tokens generated from the text of the script and an important value predetermined according to the type of language.
  • the first weight can be calculated. For example, if the total number of tokens is 12 and the current token order is 4th, 12 can be assumed to be '1' and 1 can be divided by 4 to calculate '0.25'. And the first weight can be calculated by reflecting the important value predetermined according to the type of language in the value calculated in this way.
  • the significant value may change depending on the order of the current token. Specifically, if an important word is a language that appears at the end of a sentence, the important value reflected may also increase as the order of the current token increases. If the important word is a language that appears at the beginning of the sentence, the important value reflected will decrease as the order of the current token increases.
  • the automatic video generating device 200 creates a second weight for the current token using the frequency value indicated by the label of the current token, the frequency value indicated by the label of the previous token, and the frequency value indicated by the label of the next token. can be calculated.
  • the automatic video generating device 200 may assign a final weight to the current token using the first weight and the second weight. Then, keywords consisting of tokens with final weights can be extracted.
  • the automatic video generation device 200 may provide the reference scene recommendation device 300 with a reference scene recommendation request message including keywords composed of tokens with different weights. Additionally, a reference scene may be received from the reference scene recommendation device 300.
  • the automatic video generation device 200 may generate an image by combining the received reference scene and pre-generated environmental data. To this end, the automatic video generation device 200 may select sound data according to a scenario and convert text data corresponding to the scenario into voice data. And, the automatic video generation device 200 can generate an AI actor according to the above scenario.
  • the reference scene recommendation device 300 can collect images to automatically generate videos according to customer requests and build a reference scene database based on the collected images.
  • the reference scene recommendation device 300 receives a reference scene recommendation request message from the automatic video generation device 200, it refers to a reference scene to which a tag that is the same or similar to a keyword included in the reference scene recommendation request message is assigned. It can be extracted from the scene database and provided to the automatic video creation device 200.
  • the reference scene recommendation device 300 may collect images (eg, videos). Then, the collected video can be decoded to obtain the frames that make up the video, and then the frames can be sampled at playback time intervals.
  • images eg, videos
  • the collected video can be decoded to obtain the frames that make up the video, and then the frames can be sampled at playback time intervals.
  • the reference scene recommendation device 300 may list the sampled frames in the order of playback time and calculate the degree of similarity between adjacent frames. When the similarity is calculated for all the listed frames, the reference scene recommendation device 300 groups the frames based on the similarity, thereby generating a plurality of reference scenes divided by scene.
  • the reference scene recommendation device 300 may perform feature matching on adjacent frames to calculate similarity between adjacent frames. Specifically, the reference scene recommendation device 300 compares the keypoints between adjacent frames and, if the similarity is greater than the reference value, groups the frames into one scene to create one reference scene. . If, as a result of comparing feature points between adjacent frames, the similarity is less than the standard value, it can be determined that the scene has been switched, and different reference images can be generated by grouping the corresponding frames into different scenes.
  • the reference scene recommendation device 300 may extract objects for each listed frame and then determine whether to change the scene based on a change in the number of extracted objects. Additionally, a reference scene can be created based on the point in time when the number of extracted objects changes or the point in time when the number of extracted objects changes beyond the standard value.
  • the reference scene recommendation device 300 determines whether the background has changed based on a change in pixel value between pixels in adjacent frames, and determines whether or not there is a scene change based on the determination result. You can judge. Next, a reference scene can be created based on the point in time when the background changes.
  • the reference scene recommendation device 300 may determine whether to switch scenes based on changes in the content of audio data and/or subtitle data constituting the video. Additionally, a reference scene can be created based on the point in time when new content appears in the audio data and/or subtitle data.
  • the reference image recommendation device 300 may extract objects for each listed frame and then determine whether a scene change occurs based on a change in the type of the extracted object. Additionally, a reference scene can be created based on the point in time when a previously extracted object disappears and/or when a new object appears.
  • the reference scene recommendation device 300 can analyze the plurality of reference scenes and extract characteristic information of the reference scene. And, depending on the extracted feature information, different types of tags can be assigned to each reference scene. For example, depending on the extracted feature information, one of an object attribute tag, a screen attribute tag, a situation attribute tag, and a highlight attribute tag can be assigned.
  • an object attribute tag a screen attribute tag, a situation attribute tag, and a highlight attribute tag.
  • the reference scene recommendation device 300 may detect a feature area of an object in the reference scene (Interest Point Detection).
  • the feature area refers to the main area from which a feature descriptor that describes the characteristics of an object is extracted.
  • Feature descriptors may also be referred to as descriptors, feature vectors, or vector values, and may be used to determine whether objects are identical or similar.
  • the feature area is the contour included in the object, corners such as corners among the contours, blobs that are distinct from the surrounding area, areas that are invariant or covariant according to the transformation of the reference scene data, and/or the surrounding brightness. May contain poles with dark or bright features.
  • the feature area may target a patch (piece) of the reference scene or the entire reference scene.
  • the reference scene recommendation device 300 may extract feature information of the object from the detected feature area. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And object attribute tags can be assigned to the reference scene according to the feature descriptor.
  • the reference scene recommendation device 300 may detect a feature area of the reference scene. And the feature information of the reference scene can be extracted from the feature area of the detected reference scene. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And screen attribute tags can be assigned to the reference scene according to the feature descriptor.
  • the above-mentioned feature descriptor may be calculated using the location of the feature area, brightness, color, sharpness, gradient, scale and/or pattern information of the feature area in the reference scene.
  • the feature descriptor may calculate the brightness value, brightness change value, and/or distribution value of the feature area by converting them into vectors.
  • the feature descriptor is not only a local descriptor based on the feature area as described above, but also a global descriptor, frequency descriptor, binary descriptor, or neural network descriptor. It can also be expressed as
  • the global descriptor can convert the brightness, color, sharpness, gradient, scale, and/or pattern information of the entire reference scene, each area where the reference scene is divided by an arbitrary standard, or each feature area into vector values. there is.
  • the frequency descriptor can convert the number of times pre-classified feature descriptors are included in a reference scene and/or the number of times they include global features such as a conventionally defined color table into a vector value.
  • a binary descriptor can be used by extracting in bits whether each descriptor is included and/or whether the size of each element value constituting the descriptor is larger or smaller than a specific value, and then converting it to an integer type.
  • a neural network descriptor can extract image information used for learning or classification from the layers of a neural network.
  • the reference scene recommendation device 300 may apply the reference scene to a scene type analysis model.
  • a scene type analysis model may refer to a model learned to receive a scene as input and output the scene type. Additionally, the scene type may refer to the type of situation being expressed in the scene.
  • the reference scene recommendation device 300 may assign a situation attribute tag to the reference scene according to the type of the extracted situation.
  • the reference scene recommendation device 300 may build a scene type analysis model as a CNN (Convolution Neural Network) model, which is one of the deep learning models, and learn the above-described data set.
  • the CNN model can be designed to include two convolutional layers, a relu layer, a max pooling layer, and one fully connected layer.
  • the reference scene recommendation device 300 uses the RCNN technique to construct a feature sequence in the map order of the convolution feature maps calculated from the CNN model, and then converts each feature sequence into a long and short term. It can be learned by applying to memory networks (LSTM; Long Short Term Memory networks).
  • LSTM Long Short Term Memory networks
  • the reference scene recommendation device 300 may extract a highlight portion from the image.
  • the highlight portion may refer to the section containing the most important information in the video. For example, if the content of the video consists of four sections of 'Before', 'Before', and 'Before', the section corresponding to 'Before' may be considered the highlight section. Highlights can be extracted manually or automatically.
  • the reference scene recommendation device 300 may assign a highlight attribute tag to the reference scene corresponding to the highlight portion.
  • the reference scene recommendation device 300 After assigning tags to each of a plurality of reference scenes according to the above-described method, upon receiving a reference scene recommendation request message from the automatic video generation device 200, the reference scene recommendation device 300 includes a tag in the reference scene recommendation request message.
  • a reference scene to which a tag identical or similar to the existing keyword is assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
  • the reference video data recommendation device 300 may extract a keyword from the reference scene recommendation request message and extract tokens constituting the keyword. There is. Next, a tag that matches the morpheme value of the token can be selected from among a plurality of tags assigned to the reference scene. And if the selected tag and the word in the token match, the reference scene to which the tag is assigned can be extracted from the reference scene database.
  • the reference scene recommendation device 300 may select an object attribute tag from a plurality of tags assigned to the reference scene. And if the object attribute tag and the word in the token match, the reference scene to which the corresponding tag is assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
  • the reference scene recommendation device 300 may select a screen attribute tag and a situation attribute tag from a plurality of tags assigned to the reference scene. And if the screen attribute tag and the word in the token match, and the situation attribute tag and the word in the token match, the reference scene to which the corresponding tag is assigned is extracted from the reference scene database and provided to the automatic video creation device 200. You can.
  • the reference scene recommendation device 300 calculates the similarity ratio between each of a plurality of tags assigned to the reference image and the word of the token, targeting a reference scene to which a tag that does not match the morpheme value of the token is assigned. You can. Additionally, reference scenes to which tags with a similarity ratio greater than a certain ratio are assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
  • the reference scene recommendation device 300 may compare the characters constituting the tag assigned to the reference scene and the characters constituting the word of the token to calculate the number of matching characters. Also, by comparing the number of strings corresponding to the tag and the number of strings corresponding to the word of the token, a longer number of strings can be selected. Additionally, a similarity ratio representing the ratio of the number of matching characters to the number of selected strings can be calculated. In addition, reference scenes to which tags with a similarity ratio greater than a certain ratio are assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
  • the automatic video generation device 200 and/or the reference scene recommendation device 300 as described above may be implemented as included in, for example, a web service providing server.
  • the web service providing server can provide various contents to the user terminal 500.
  • the type of content provided to the user terminal 500 may vary depending on the type of application used by the user terminal 500 to access the web service providing server.
  • This web service providing server may be implemented as an online shopping mall server or a search engine server.
  • the customer terminal 400 may include an application for accessing a web service providing server. Accordingly, when the application is selected and executed by the customer, the customer terminal 400 can access the automatic video generating device 200 through the application. Thereafter, when the customer inputs video generation reference information into the customer terminal 400, the customer terminal 400 may request automatic video generation by providing the input video generation reference information to the automatic video generation device 200.
  • the user terminal 500 may include an application for accessing a web service providing server. Accordingly, when the application is selected and executed by the user, the user terminal 500 can access the web service providing server through the application.
  • the user terminal 500 can display a web page provided from a web service providing server through an application.
  • a web page may include a screen loaded on an electronic device and/or content within the screen so that it can be immediately displayed on the screen according to a user's scroll input.
  • the entire application execution screen that extends horizontally or vertically and is displayed as the user scrolls may be included in the concept of a web page.
  • the camera roll screen can also be included in the concept of a web page.
  • the user terminal 500 may include an application (eg, software, neural network model, etc.) for analyzing user interests. Accordingly, the user terminal 500 may collect and store log records and/or engagement records and determine the user's interests by analyzing the log records and/or engagement records through an application for user interest analysis.
  • an application eg, software, neural network model, etc.
  • the user terminal 500 may extract content by analyzing log records and/or engagement records stored in the user terminal 500, and create a label indicating the type of extracted content. It can be extracted.
  • Log records may be created by recording events that occur while the operating system or software of the user terminal 500 is running.
  • Engagement records can be created by recording a set of committed actions that result in a user becoming interested, participating, and engaging.
  • User behavior information includes not only actions such as the user viewing content through a web browser, the user creating a 'like' tag on content through social networks, and the user viewing images or text on the homepage. , it can also include the object of these actions, the time when these actions occurred, and the time these actions were maintained.
  • a label indicating the type of extracted content may indicate, for example, whether the extracted content corresponds to the user's interests or not.
  • a label indicating the type of extracted content may be extracted by analyzing log records and/or engagement records, or may be extracted from labels stored in advance.
  • the user terminal 500 may be equipped with a crawler, a parser, and an indexer, through which web pages viewed by the user may be collected.
  • the item information e.g., image, item name, and item price
  • the crawler can collect data related to item information by collecting a list of web addresses that users browse, checking websites, and tracking links.
  • the parser can interpret web pages collected during the crawling process and extract item information such as images, item prices, and item names included in the page.
  • the indexer can index the location and meaning of the extracted item information.
  • Figure 2 is a diagram illustrating an automatic video generation device according to an embodiment of the present disclosure.
  • the automatic video generation device 200 includes a script creation unit 210, a scenario creation unit 220, a keyword extraction unit 230, a reference scene transmission/reception unit 240, and an environment data creation unit 250. and an image synthesis unit 260.
  • the script generator 210 may generate a script using the received image generation reference information and a pre-generated script database.
  • the script generator 210 searches the script database for keywords included in the image generation reference information, and then generates object properties of the object corresponding to the searched keyword, screen properties of the scene matching the object, and scenes matching the object.
  • a script can be created using text that matches the attributes determined based on the user's behavior information using content related to the customer among the highlight attributes of the scene matching the situation attributes and objects.
  • the scenario generator 220 may generate a scenario composed of a standard scene based on the script generated by the script generator 210. According to embodiments, the scenario may further include sound effects and/or atmosphere in addition to the reference scene.
  • the keyword extraction unit 230 may extract keywords from the script generated by the script creation unit 210. More specifically, the keyword extractor 230 may extract words from the text of the script based on spaces. And, based on a database of frequency values for each word created in advance, the frequency values of the extracted words can be measured.
  • the keyword extraction unit 230 may generate a token by performing morphological analysis on each of the extracted words.
  • a token may include a pair of words and morpheme values, and may be assigned a label indicating a frequency value.
  • the keyword extraction unit 230 has (frequency value: 1000, (word, morpheme value)), (frequency value: 234, (word, morpheme)), (frequency value: 2541, (word, morpheme)) Tokens such as , and (frequency value: 2516, (word, morpheme)) can be generated.
  • the keyword extractor 230 may assign different weights to each token according to the word and/or label of each token.
  • the keyword extraction unit 230 determines the type of language (e.g., English, Chinese, Korean, etc.) that implements the word in the token, the position of the word within the text of the script, and/or the label assigned to the token.
  • different weights can be assigned to each token.
  • the keyword extractor 230 may calculate the first weight using the total number of tokens generated from the text of the script and the order of each token.
  • the keyword extraction unit 230 quantifies the order of the current token based on the total number of tokens generated from the text of the script and an important value predetermined according to the type of language, and provides information on the current token.
  • 1 Weight can be calculated. For example, if the total number of tokens is 12 and the token order is 4th, the keyword extractor 230 may assume 12 as '1' and divide 1 by 4 to calculate '0.25'. And the first weight can be calculated by reflecting the important value predetermined according to the type of language in the value calculated in this way. According to an embodiment, the significant value may change depending on the order of the current token.
  • the important value reflected may also increase as the order of the current token increases. If the important word is a language that appears at the beginning of the sentence, the important value reflected will decrease as the order of the current token increases.
  • the keyword extractor 230 may calculate the second weight using the frequency value indicated by the label of the current token, the frequency value indicated by the label of the previous token, and the frequency value indicated by the label of the next token. .
  • the keyword extractor 230 may assign a final weight to the current token using the first weight and the second weight. Then, keywords consisting of tokens with final weights can be extracted.
  • the reference scene transceiver 240 provides a reference scene recommendation request message containing keywords composed of tokens with different weights to the reference scene recommendation device 300, and selects the reference scene from the reference scene recommendation device 300. You can receive it.
  • the environmental data generator 250 may select sound data according to the scenario. And text data corresponding to the above scenario can be converted into voice data. Furthermore, an AI actor can be created according to the above scenario.
  • the image synthesis unit 260 may generate an image by combining the reference scene received by the reference scene transmission/reception unit 240 and the environment data generated by the environment data generation unit 250.
  • Figure 3 is a diagram of a reference scene recommendation device according to an embodiment of the present disclosure.
  • the reference scene recommendation device 300 may build a reference scene database based on the collected images. Additionally, when receiving a reference scene recommendation request message from the automatic video generation device 200, the reference scene recommendation device 300 refers to a reference scene to which a tag that is the same or similar to a keyword included in the reference scene recommendation request message is assigned. It can be extracted from the scene database and provided to the automatic video creation device 200. To this end, the reference scene recommendation device 300 may include an image segmentation unit 310, a tag allocation unit 320, a reference scene database 330, and a reference scene recommendation unit 340.
  • the image segmentation unit 310 may collect images (eg, videos). Then, the collected video can be decoded to obtain the frames that make up the video, and then the frames can be sampled at playback time intervals.
  • images eg, videos
  • the collected video can be decoded to obtain the frames that make up the video, and then the frames can be sampled at playback time intervals.
  • the image segmentation unit 310 may arrange the sampled frames in the order of playback time and calculate the degree of similarity between adjacent frames.
  • the reference scene recommendation device 300 groups the frames based on the similarity, thereby generating a plurality of reference scenes divided by scene.
  • the image segmentation unit 310 may perform feature matching on adjacent frames to calculate the degree of similarity between adjacent frames. Specifically, the image segmentation unit 310 may compare keypoints between adjacent frames and, if the similarity is greater than or equal to a reference value, generate one reference scene by grouping the corresponding frames into one scene. If, as a result of comparing feature points between adjacent frames, the similarity is less than the standard value, it can be determined that the scene has been switched, and different reference images can be generated by grouping the corresponding frames into different scenes.
  • the image segmentation unit 310 may extract objects for each listed frame and then determine whether to change the scene based on a change in the number of extracted objects. Additionally, a reference scene can be created based on the point in time when the number of extracted objects changes or the point in time when the number of extracted objects changes beyond the standard value.
  • the image segmentation unit 310 determines whether the background changes based on the change in pixel value between pixels of the same position among pixels of adjacent frames, and determines whether there is a scene change based on the determination result. can do. Next, a reference scene can be created based on the point in time when the background changes.
  • the video segmentation unit 310 may determine whether to change the scene based on a change in the content of the audio data and/or subtitle data constituting the video. Additionally, a reference scene can be created based on the point in time when new content appears in the audio data and/or subtitle data.
  • the image segmentation unit 310 may extract objects for each listed frame and then determine the beginning of a scene change based on a change in the type of the extracted object. Additionally, a reference scene can be created based on the point in time when a previously extracted object disappears and/or when a new object appears.
  • the tag allocator 320 may analyze a plurality of reference scenes and extract characteristic information of the reference scenes. And, depending on the extracted feature information, different types of tags can be assigned to each reference scene. For example, depending on the extracted feature information, one of an object attribute tag, a screen attribute tag, a situation attribute tag, and a highlight attribute tag can be assigned.
  • the tag allocator 320 may detect a characteristic area of an object in a reference scene (Interest Point Detection).
  • the feature area refers to the main area from which a feature descriptor that describes the characteristics of an object is extracted.
  • Feature descriptors may also be referred to as descriptors, feature vectors, or vector values, and may be used to determine whether objects are identical or similar.
  • feature areas include the contours of the object, corners such as corners among the contours, blobs that are distinct from the surrounding area, areas that are invariant or covariant depending on the deformation of the reference scene, and/or are darker than the surrounding brightness. Or it may contain poles with bright features.
  • the feature area may target a patch (piece) of the reference scene or the entire reference scene.
  • the tag allocator 320 may extract feature information of the object from the detected feature area. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And object attribute tags can be assigned to the reference scene according to the feature descriptor.
  • the tag allocator 320 may detect a feature area of a reference scene. And the feature information of the reference scene can be extracted from the feature area of the detected reference scene. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And screen attribute tags can be assigned to the reference scene according to the feature descriptor.
  • the above-described feature descriptor may be calculated using the location of the feature area, brightness, color, sharpness, gradient, scale and/or pattern information of the feature area in the reference scene.
  • the feature descriptor may calculate the brightness value, brightness change value, and/or distribution value of the feature area by converting them into vectors.
  • the tag allocation unit 320 may apply the reference scene to the scene type analysis model.
  • a scene type analysis model may refer to a model learned to receive a scene as input and output the scene type. Additionally, the scene type may refer to the type of situation being expressed in the scene.
  • the tag allocation unit 320 may assign a situation attribute tag to the reference scene according to the type of the extracted situation.
  • the tag allocator 320 may build a scene type analysis model as a CNN (Convolution Neural Network) model, which is one of the deep learning models, and learn the above-described data set.
  • the CNN model can be designed to include two convolutional layers, a relu layer, a max pooling layer, and one fully connected layer.
  • the tag allocation unit 320 uses the RCNN technique to construct a feature sequence in the map order of the convolution feature maps calculated from the CNN, and then stores each feature sequence in a long-short-term memory network. It can be learned by substituting for (LSTM; Long Short Term Memory networks).
  • the tag allocation unit 320 may extract the highlight portion from the video.
  • the highlight portion may refer to the section containing the most important information in the video. For example, if the content of the video consists of four sections of 'Before', 'Before', and 'Before', the section corresponding to 'Before' may be considered the highlight section. Highlights can be extracted manually or automatically.
  • the tag allocation unit 320 may assign a highlight attribute tag to the reference scene corresponding to the highlight portion.
  • Reference scenes to which tags are assigned by the tag allocation unit 320 may be stored in the reference scene database 330.
  • the reference scene database 330 may store the start time of the reference scene, the end time of the reference scene, and one or more tags assigned to the reference scene in a table format.
  • the reference scene recommendation unit 340 may extract a keyword from the reference scene recommendation request message. And the tokens that make up the keyword can be extracted. Next, a tag that matches the morpheme value of the token can be selected from among a plurality of tags assigned to the reference scene. And if the selected tag and the word in the token match, the reference scene to which the tag is assigned can be extracted from the reference scene database.
  • the reference scene recommendation device 300 may select an object attribute tag from a plurality of tags assigned to the reference scene. And if the object attribute tag and the word in the token match, the reference scene to which the corresponding tag is assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
  • the reference scene recommendation device 300 may select a screen attribute tag and a situation attribute tag from a plurality of tags assigned to the reference scene. And if the screen attribute tag and the word in the token match, and the situation attribute tag and the word in the token match, the reference scene to which the corresponding tag is assigned is extracted from the reference scene database and provided to the automatic video creation device 200. You can.
  • the reference scene recommendation unit 340 targets a reference image to which a tag that does not match the morpheme value of the token is assigned, and calculates the similarity ratio between each of the plurality of tags assigned to the reference image and the word of the token. You can. Additionally, reference scenes to which tags with a similarity ratio greater than a certain ratio are assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
  • the reference scene recommendation unit 340 may compare the characters constituting the tag assigned to the reference scene and the characters constituting the word of the token to calculate the number of matching characters. Also, by comparing the number of strings corresponding to the tag and the number of strings corresponding to the word of the token, a longer number of strings can be selected. Additionally, a similarity ratio representing the ratio of the number of matching characters to the number of selected strings can be calculated. Additionally, a reference image to which a tag with a similarity ratio greater than a certain rate is assigned can be extracted from the reference image database and provided to the automatic video generation device 200.
  • 4 to 7 are diagrams for explaining the operation of a reference scene recommendation device according to an embodiment of the present disclosure.
  • the reference scene recommendation device 300 may collect an image 410.
  • the collected image 410 may be provided to the image segmentation unit.
  • the image division unit may divide the input image into scenes to create a plurality of reference scenes (420_1 to 420_4).
  • a plurality of reference scenes may be input to the tag allocation unit.
  • the tag allocation unit may assign tags to each reference scene (420_1 to 420_4).
  • Reference scenes 420_1 to 420_4 to which tags are assigned may be stored in the reference scene database 430.
  • the image segmentation unit may decode the input image 410 to obtain frames constituting the image, and then sample the frames at playback time intervals.
  • the image segmentation unit may calculate the similarity between adjacent frames among the sampled frames and group the frames based on the similarity, thereby generating a plurality of reference scenes divided on a scene basis.
  • the tag allocation unit can analyze a plurality of reference scenes (420_1 to 420_4) to extract characteristic information of each reference scene and assign different types of tags to each reference scene (420_1 to 420_1) according to the extracted specific information.
  • the tag allocation unit may allocate one of an object attribute tag, a screen attribute tag, a situation attribute tag, and a highlight attribute tag, according to the extracted feature information.
  • the tag allocation unit may detect the feature area of the object in the reference scene and extract feature information of the object from the detected feature area. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And object attribute tags can be assigned to the reference scene according to the feature descriptor.
  • the tag allocator may analyze the reference scene 420_3 and detect the feature area of the object (Interest Point Detection). And as shown in FIG. 6(b), the object and its characteristic information can be extracted from the detected feature area. Afterwards, the tag allocation unit can extract the feature information of the object by expressing the feature information of the object as a vector value. Next, the tag allocation unit may allocate an object attribute tag to the reference scene 420_3 according to the characteristic information of the object, as shown in FIG. 6(c)d.
  • Figure 8 is a flow chart illustrating a reference scene recommendation method for automatic video generation according to an embodiment of the present disclosure.
  • the reference scene recommendation device 300 may collect an image and then divide the collected image into scenes to generate a plurality of reference scenes (S810).
  • the reference scene recommendation device 300 may extract feature information by analyzing a plurality of reference scenes and then assign different types of tags to the plurality of reference scenes based on this (S820).
  • the reference scene recommendation device 300 may store a reference scene to which a tag is assigned in a reference scene database (S830).
  • the reference scene recommendation device 300 When the reference scene recommendation device 300 receives a reference scene recommendation request message from the automatic video generation device 200, the reference scene recommendation device 200 extracts a reference scene from the reference scene database based on the received reference scene recommendation request message. ) can be provided (S840).
  • step S840 includes the reference scene recommendation device 300 receiving a reference scene recommendation request message from the automatic video generation device 200, and extracting keywords included in the reference scene recommendation request message. Step, extracting the tokens constituting the keyword, selecting a tag that matches the morpheme value of the token among a plurality of tags assigned to the reference scene, if the selected tag matches the word of the token, the corresponding tag is It may include extracting an assigned reference scene from a reference scene database, and providing the extracted reference scene to the automatic video generating device 200.
  • the step S840 includes the reference scene recommendation device 300 receiving a reference scene recommendation request message from the automatic video generation device 200, and extracting keywords included in the reference scene recommendation request message.
  • Step extracting tokens constituting a keyword, targeting a reference image to which a tag that does not match the morpheme value of the token among a plurality of tags assigned to the reference scene is assigned, a plurality of tags assigned to the reference image
  • a step of calculating a similarity ratio between each tag and a word in the talk extracting a reference scene assigned to a tag with a similarity ratio of a certain ratio or more from the reference scene database, and converting the extracted reference scene to the automatic video generation device 200. It may include providing steps.
  • calculating the similarity ratio includes calculating the number of matching characters by comparing the characters constituting the tag assigned to the reference scene and the characters constituting the word of the token, and calculating the number of matching characters. Comparing the number of strings and the number of strings corresponding to the word of the token, selecting a greater number of strings, calculating a similarity ratio indicating the ratio of the number of matching characters to the number of selected strings, the similarity ratio is specified It may include extracting a reference scene to which a tag greater than or equal to the ratio is assigned from a reference scene database, and providing the extracted reference scene to the automatic video generating device 200 .
  • FIGS. 1 to 8 a reference scene recommendation method and a reference scene recommendation device for automatically generating a video according to an embodiment of the present disclosure have been described.
  • programs for various operations of the reference scene recommendation device 300 may be stored in the memory of the reference scene recommendation device 300.
  • the processor of the reference scene recommendation device 300 may load and execute a program stored in the memory.
  • the processor may be implemented as an application processor (AP), central processing unit (CPU), microcontroller unit (MCU), or similar devices, depending on hardware, software, or a combination thereof.
  • AP application processor
  • CPU central processing unit
  • MCU microcontroller unit
  • hardware may be provided in the form of an electronic circuit that processes electrical signals to perform a control function
  • software may be provided in the form of a program or code that drives the hardware circuit.
  • the disclosed embodiments may be implemented in the form of a recording medium that stores instructions executable by a computer. Instructions may be stored in the form of program code, and when executed by a processor, may create program modules to perform operations of the disclosed embodiments.
  • the recording medium may be implemented as a computer-readable recording medium.
  • Computer-readable recording media include all types of recording media storing instructions that can be decoded by a computer. For example, there may be read only memory (ROM), random access memory (RAM), magnetic tape, magnetic disk, flash memory, optical data storage, etc.
  • ROM read only memory
  • RAM random access memory
  • magnetic tape magnetic tape
  • magnetic disk magnetic disk
  • flash memory optical data storage
  • computer-readable recording media may be provided in the form of non-transitory storage media.
  • 'non-transitory storage medium' only means that it is a tangible device and does not contain signals (e.g. electromagnetic waves). This term refers to cases where data is semi-permanently stored in a storage medium and temporary storage media. It does not distinguish between cases where it is stored as .
  • a 'non-transitory storage medium' may include a buffer where data is temporarily stored.
  • methods according to various embodiments disclosed in this document may be included and provided in a computer program product.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • the computer program product may be distributed in the form of a machine-readable recording medium (e.g. compact disc read only memory (CD-ROM)) or via an application store (e.g. Play StoreTM) or on two user devices (e.g. It can be distributed directly between smartphones (e.g. smartphones) or distributed online (e.g. downloaded or uploaded).
  • a machine-readable recording medium e.g. compact disc read only memory (CD-ROM)
  • an application store e.g. Play StoreTM
  • two user devices e.g. It can be distributed directly between smartphones (e.g. smartphones) or distributed online (e.g. downloaded or uploaded).
  • a computer program product e.g., a downloadable app
  • a machine-readable recording medium such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be stored or created temporarily.
  • the reference scene recommendation method and reference scene recommendation device described above can be applied to the video production field.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)

Abstract

A reference scene recommendation method for automatically generating a video, according to one embodiment of the present disclosure, may comprise the steps of: dividing a collected video into units of a scene to generate a plurality of reference scenes; analyzing the plurality of reference scenes to extract feature information and assigning different kinds of tags to the plurality of reference scenes on the basis of the feature information; and storing, in a reference scene database, the plurality of reference scenes to which the tags have been assigned.

Description

동영상 자동 생성을 위한 참조 장면 추천 방법 및 참조 장면 추천 장치Reference scene recommendation method and reference scene recommendation device for automatic video creation
본 개시는 동영상 자동 생성을 위한 참조 장면 추천 방법 및 참조 장면 추천 장치에 관한 것이다. 보다 구체적으로 영상을 장면 단위로 분할하여 복수의 참조 장면을 생성하고, 각 참조 장면에 태그를 할당함으로써, 동영상 자동 생성 장치로부터 키워드가 수신되는 경우, 키워드에 해당하는 태그가 할당된 참조 장면을 추천할 수 있는 동영상 자동 생성을 위한 참조 장면 추천 방법 및 참조 장면 추천 장치에 관한 것이다.This disclosure relates to a reference scene recommendation method and reference scene recommendation device for automatic video generation. More specifically, by dividing the video into scenes to create multiple reference scenes and assigning tags to each reference scene, when a keyword is received from the automatic video generation device, the reference scene to which the tag corresponding to the keyword is assigned is recommended. This relates to a reference scene recommendation method and reference scene recommendation device for automatic video creation.
광고주가 인터넷에서 광고를 하려면 동영상 광고, 배너 광고및 플래시 광고 등을 별도로 제작해야만 한다.If advertisers want to advertise on the Internet, they must separately produce video advertisements, banner advertisements, and flash advertisements.
그런데 광고를 제작하는데에는 시간과 비용이 많이 들기 때문에 다양한 상품을 보유한 광고주(예: 대기업, TV 홈쇼핑, 온라인 쇼핑몰 등)의 경우, 전체 상품들 중 일부 대표 상품에 한정하여 광고를 제작하거나 특정 상품에 국한되지 않는 회원 가입 광고, 브랜드 홍보 광고, 및/또는 할인 광고 등을 제작한다.However, because it takes a lot of time and money to produce advertisements, advertisers with a variety of products (e.g. large corporations, TV home shopping, online shopping malls, etc.) have to produce advertisements limited to some representative products among all products or to specific products. Produces, but is not limited to, membership registration advertisements, brand promotion advertisements, and/or discount advertisements.
그러나, 온라인 광고의 경우 시청 대상이 되는 인터넷 사용자들이 다양하고, 각종 프로모션의 조건이 시시각각으로 변하기 때문에 개별 상품의 온라인 광고를 제작하는데 어려움이 있다. However, in the case of online advertising, the target audience of Internet users is diverse, and the conditions of various promotions change from time to time, making it difficult to create online advertising for individual products.
예를 들면, 오늘의 신상품, 오늘 마감 상품, 타임 특가 상품 등의 경우 프로모션의 조건이 시간의 제약을 받고 있으므로 해당 상품의 광고를 제작하는데 어려움이 있다. For example, in the case of today's new product, today's closing product, time special product, etc., the conditions of promotion are limited by time, so it is difficult to create advertisements for the product.
본 개시가 해결하고자 하는 일 과제는 영상을 장면 단위로 분할하여 복수의 참조 장면을 생성하고, 각 참조 장면에 태그를 할당함으로써, 동영상 자동 생성 장치로부터 키워드가 수신되는 경우, 키워드에 해당하는 태그가 할당된 참조 장면을 추천할 수 있는 동영상 자동 생성을 위한 참조 장면 추천 방법 및 참조 장면 추천 장치를 제공하는 것이다. The problem that the present disclosure aims to solve is to divide the video into scene units to generate a plurality of reference scenes and assign tags to each reference scene, so that when a keyword is received from an automatic video generation device, the tag corresponding to the keyword is The aim is to provide a reference scene recommendation method and reference scene recommendation device for automatically generating a video that can recommend assigned reference scenes.
본 개시가 해결하고자 하는 과제가 상술한 과제로 제한되는 것은 아니며, 언급되지 아니한 과제들은 본 명세서 및 첨부된 도면으로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The problem to be solved by the present disclosure is not limited to the above-mentioned problems, and problems not mentioned can be clearly understood by those skilled in the art from this specification and the attached drawings. .
본 개시의 일 실시예에 따른 참조 장면 추천 방법은, 수집된 영상을 장면 단위로 분할하여 복수의 참조 장면을 생성하는 단계; 상기 복수의 참조 장면을 분석하여 특징 정보를 추출한 후 이를 기초로 상기 복수의 참조 장면에 서로 다른 종류의 태그를 각각 할당하는 단계; 및 상기 태그가 할당된 복수의 참조 장면을 참조 장면 데이터베이스에 저장하는 단계를 포함할 수 있다. A reference scene recommendation method according to an embodiment of the present disclosure includes dividing collected images into scene units to generate a plurality of reference scenes; extracting feature information by analyzing the plurality of reference scenes and assigning different types of tags to the plurality of reference scenes based on this; and storing a plurality of reference scenes to which the tags are assigned in a reference scene database.
상기 복수의 참조 장면에 서로 다른 종류의 태그를 각각 할당하는 단계는, 상기 참조 장면에 포함된 오브젝트의 특징 정보를 추출하고, 상기 오브젝트의 특징 정보를 벡터값으로 포현한 특징 기술자를 추출하고, 상기 특징 기술자에 따라 상기 참조 장면에 오브젝트 속성 태그를 할당하는 단계; 상기 참조 장면을 장면 종류 분석 모델에 적용하여 상기 참조 장면에서 표현되고 있는 상황의 종류를 추출하고, 상기 상황의 종류에 따라 상기 참조 장면에 상황 속성 태그를 할당하는 단계; 및 상기 수집된 영상에서 하이라이트 부분을 추출하고, 상기 참조 장면 데이터베이스에 저장된 복수의 참조 장면 중 상기 하이라이트 부분에 해당하는 참조 장면에 하이라이트 속성 태그를 할당하는 단계를 포함할 수 있다. The step of allocating different types of tags to the plurality of reference scenes includes extracting feature information of an object included in the reference scene, extracting a feature descriptor expressing the feature information of the object as a vector value, and assigning an object attribute tag to the reference scene according to a feature descriptor; applying the reference scene to a scene type analysis model to extract the type of situation expressed in the reference scene, and assigning a situation attribute tag to the reference scene according to the type of situation; and extracting a highlight portion from the collected video and assigning a highlight attribute tag to a reference scene corresponding to the highlight portion among a plurality of reference scenes stored in the reference scene database.
본 개시의 일 실시예에 따른 참조 장면 추천 장치는, 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서로 하여금 동작들(Operations)을 실행하도록 구성된 명령어들(instructions)을 포함하는 메모리;를 포함하되, 상기 동작들은, 수집된 영상을 장면 단위로 분할하여 복수의 참조 장면을 생성하는 것; 상기 복수의 참조 장면을 분석하여 특징 정보를 추출한 후 이를 기초로 상기 복수의 참조 장면에 서로 다른 종류의 태그를 각각 할당하는 것; 및 상기 태그가 할당된 복수의 참조 장면을 참조 장면 데이터베이스에 저장하는 것을 포함할 수 있다. A reference scene recommendation device according to an embodiment of the present disclosure includes one or more processors; and a memory including instructions configured to cause the one or more processors to execute operations, wherein the operations include dividing the collected images into scenes to generate a plurality of reference scenes. thing; analyzing the plurality of reference scenes to extract feature information and assigning different types of tags to the plurality of reference scenes based on this; And it may include storing a plurality of reference scenes to which the tags are assigned in a reference scene database.
상기 복수의 참조 장면에 서로 다른 종류의 태그를 각각 할당하는 것은, 상기 참조 장면에 포함된 오브젝트의 특징 정보를 추출하고, 상기 오브젝트의 특징 정보를 벡터값으로 포현한 특징 기술자를 추출하고, 상기 특징 기술자에 따라 상기 참조 장면에 오브젝트 속성 태그를 할당하는 것; 상기 참조 장면을 장면 종류 분석 모델에 적용하여 상기 참조 장면에서 표현되고 있는 상황의 종류를 추출하고, 상기 상황의 종류에 따라 상기 참조 장면에 상황 속성 태그를 할당하는 것; 및 상기 수집된 영상에서 하이라이트 부분을 추출하고, 상기 참조 장면 데이터베이스에 저장된 복수의 참조 장면 중 상기 하이라이트 부분에 해당하는 참조 장면에 하이라이트 속성 태그를 할당하는 것을 포함할 수 있다. Assigning different types of tags to each of the plurality of reference scenes includes extracting feature information of an object included in the reference scene, extracting a feature descriptor expressing the feature information of the object as a vector value, and extracting the feature assigning object attribute tags to the reference scene according to a descriptor; applying the reference scene to a scene type analysis model to extract the type of situation expressed in the reference scene, and assigning a situation attribute tag to the reference scene according to the type of situation; and extracting a highlight portion from the collected video and assigning a highlight attribute tag to a reference scene corresponding to the highlight portion among a plurality of reference scenes stored in the reference scene database.
본 개시의 기술적 해결방법이 상술한 기술적 해결방법들로 제한되는 것은 아니며, 언급되지 아니한 기술적 해결방법들은 본 명세서 및 첨부된 도면으로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다. The technical solutions of the present disclosure are not limited to the above-described technical solutions, and technical solutions not mentioned are clearly understood by those skilled in the art from this specification and the attached drawings. It could be.
본 개시의 실시예에 따른 동영상 자동 생성을 위한 참조 장면 추천 방법 및 참조 장면 추천 장치에 의하면, 영상을 장면 단위로 분할하여 복수의 참조 장면을 생성하고, 각 참조 장면에 태그를 할당함으로써, 동영상 자동 생성 장치로부터 키워드가 수신되는 경우, 키워드에 해당하는 태그가 할당된 참조 장면을 동영상 자동 생성 장치로 추천할 수 있다. According to the reference scene recommendation method and reference scene recommendation device for automatic video generation according to an embodiment of the present disclosure, the video is divided into scene units to generate a plurality of reference scenes, and tags are assigned to each reference scene to automatically generate the video. When a keyword is received from the generating device, a reference scene to which a tag corresponding to the keyword is assigned can be recommended to the automatic video generating device.
도 1은 본 개시의 일 실시예에 따른 동영상 자동 생성 시스템을 도시한 도면이다.1 is a diagram illustrating an automatic video generation system according to an embodiment of the present disclosure.
도 2는 본 개시의 일 실시예에 따른 동영상 자동 생성 장치를 도시한 도면이다. Figure 2 is a diagram illustrating an automatic video generation device according to an embodiment of the present disclosure.
도 3은 본 개시의 일 실시예에 따른 참조 장면 추천 장치를 도시한 도면이다. Figure 3 is a diagram illustrating a reference scene recommendation device according to an embodiment of the present disclosure.
도 4 내지 7은 본 개시의 일 실시예에 따른 참조 장면 추천 장치의 동작을 설명하기 위한 도면들이다. 4 to 7 are diagrams for explaining the operation of a reference scene recommendation device according to an embodiment of the present disclosure.
도 8은 본 개시의 일 실시예에 따른 동영상 자동 생성을 위한 참조 장면 추천 방법을 도시한 순서도이다.Figure 8 is a flow chart illustrating a reference scene recommendation method for automatic video generation according to an embodiment of the present disclosure.
본 개시의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통해 보다 분명해질 것이다. 다만, 본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예들을 가질 수 있는 바, 이하에서는 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다. The above-described objects, features and advantages of the present disclosure will become more apparent through the following detailed description in conjunction with the accompanying drawings. However, since the present disclosure can make various changes and have various embodiments, specific embodiments will be illustrated in the drawings and described in detail below.
명세서 전체에 걸쳐서 동일한 참조번호들은 원칙적으로 동일한 구성요소들을 나타낸다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명하며, 이에 대한 중복되는 설명은 생략하기로 한다. Like reference numerals throughout the specification in principle refer to the same elements. In addition, components with the same function within the scope of the same idea shown in the drawings of each embodiment will be described using the same reference numerals, and overlapping descriptions thereof will be omitted.
본 개시와 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다. If it is determined that a detailed description of a known function or configuration related to the present disclosure may unnecessarily obscure the gist of the present disclosure, the detailed description will be omitted. In addition, numbers (eg, first, second, etc.) used in the description of this specification are merely identifiers to distinguish one component from another component.
또한, 이하의 실시예에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.In addition, the suffixes “module” and “part” for components used in the following examples are given or used interchangeably only for the ease of writing the specification, and do not have distinct meanings or roles in themselves.
이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.In the following examples, singular terms include plural terms unless the context clearly dictates otherwise.
이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. In the following embodiments, terms such as include or have mean the presence of features or components described in the specification, and do not exclude in advance the possibility of adding one or more other features or components.
도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타낸 것으로, 본 개시가 반드시 도시된 바에 한정되지 않는다. In the drawings, the sizes of components may be exaggerated or reduced for convenience of explanation. For example, the size and thickness of each component shown in the drawings are arbitrarily shown for convenience of explanation, and the present disclosure is not necessarily limited to what is shown.
어떤 실시예가 달리 구현 가능한 경우에 특정한 프로세스의 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 프로세스가 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다. If an embodiment can be implemented differently, the order of specific processes may be performed differently from the order described. For example, two processes described in succession may be performed substantially simultaneously, or may proceed in an order opposite to that in which they are described.
이하의 실시예에서, 구성 요소 등이 연결되었다고 할 때, 구성 요소들이 직접적으로 연결된 경우뿐만 아니라 구성요소들 중간에 구성 요소들이 개재되어 간접적으로 연결된 경우도 포함한다. In the following embodiments, when components are connected, this includes not only the case where the components are directly connected, but also the case where the components are indirectly connected by intervening between the components.
예컨대, 본 명세서에서 구성 요소 등이 전기적으로 연결되었다고 할 때, 구성 요소 등이 직접 전기적으로 연결된 경우뿐만 아니라, 그 중간에 구성 요소 등이 개재되어 간접적으로 전기적 연결된 경우도 포함한다. For example, in this specification, when components, etc. are said to be electrically connected, this includes not only cases where the components are directly electrically connected, but also cases where components, etc. are interposed and indirectly electrically connected.
이하에서는 도 1 내지 도 8을 참고하여 본 개시의 예시적인 실시예에 따른, 동영상 자동 생성을 위한 참조 장면 추천 방법 및 참조 장면 추천 장치에 관하여 설명한다. Hereinafter, a reference scene recommendation method and a reference scene recommendation device for automatically generating a video according to an exemplary embodiment of the present disclosure will be described with reference to FIGS. 1 to 8.
도 1은 본 개시의 일 실시예에 따른 동영상 자동 생성 시스템을 도시한 도면이다.1 is a diagram illustrating an automatic video generation system according to an embodiment of the present disclosure.
도 1을 참조하면, 동영상 자동 생성 시스템은 동영상 자동 생성 장치(200), 참조 장면 추천 장치(300), 하나 이상의 고객 단말(400) 및 하나 이상의 사용자 단말(500)을 포함할 수 있다. Referring to FIG. 1 , the automatic video generation system may include an automatic video generation device 200, a reference scene recommendation device 300, one or more customer terminals 400, and one or more user terminals 500.
고객 단말(400)은 광고주와 같은 고객이 사용하는 전자 장치를 의미할 수 있다. 사용자 단말(500)는 광고주 외 일반적인 사용자가 사용하는 전자 장치를 의미할 수 있다. 고객은 동영상을 자동으로 생성하는데 필요한 영상 생성 참조 정보를 고객 단말(400)로 입력할 수 있으며, 고객 단말(400)은 고객이 입력한 영상 생성 참조 정보를 동영상 자동 생성 장치(200)로 전송할 수 있다. 실시예에 따르면, 영상 생성 참조 정보는 단어 단위의 키워드일 수 있다. Customer terminal 400 may refer to an electronic device used by customers such as advertisers. The user terminal 500 may refer to an electronic device used by general users other than advertisers. The customer can input the video generation reference information needed to automatically generate the video into the customer terminal 400, and the customer terminal 400 can transmit the video generation reference information input by the customer to the automatic video creation device 200. there is. According to an embodiment, the image generation reference information may be a keyword in word units.
동영상 자동 생성 장치(200)는 고객의 요청에 따라 광고 영상 등의 영상을 자동으로 생성할 수 있다. 구체적으로, 고객 단말(400)로부터 영상 생성 참조 정보가 수신되면, 동영상 자동 생성 장치(200)는 수신된 영상 생성 참조 정보와 미리 생성된 스크립트 데이터베이스를 이용하여 스크립트를 생성할 수 있다. The automatic video generation device 200 can automatically generate videos, such as advertising videos, according to customer requests. Specifically, when video generation reference information is received from the customer terminal 400, the automatic video creation device 200 may generate a script using the received video generation reference information and a pre-generated script database.
실시예에 따르면, 스크립트 데이터베이스는 키워드와 관련된 하나 이상의 속성 및 각 속성에 매칭되는 텍스트를 저장할 수 있다. 구체적으로, 키워드와 관련된 하나 이상의 속성으로는 키워드에 해당하는 오브젝트의 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성, 오브젝트와 매칭되는 장면의 상황 속성 및 오브젝트와 매칭되는 장면의 하이라이트 속성을 예로 들 수 있다. 따라서, 동영상 자동 생성 장치(200)는 키워드와 관련된 하나 이상의 속성 중에서 고객과 관련된 컨텐츠를 이용한 사용자의 행동 정보를 기초로 결정된 속성과 매칭되는 텍스트를 이용하여 기준 장면의 스크립트를 생성할 수 있다. According to an embodiment, the script database may store one or more attributes related to a keyword and text matching each attribute. Specifically, one or more properties related to a keyword include object properties of the object corresponding to the keyword, screen properties of the scene matching the object, situation properties of the scene matching the object, and highlight properties of the scene matching the object. there is. Accordingly, the automatic video generation device 200 may generate a script of a reference scene using text that matches an attribute determined based on user behavior information using customer-related content among one or more attributes related to a keyword.
그 후, 동영상 자동 생성 장치(200)는 스크립트를 기초로 기준 장면으로 구성된 시나리오를 생성할 수 있다.Afterwards, the automatic video generation device 200 may generate a scenario consisting of a reference scene based on the script.
나아가 동영상 자동 생성 장치(200)는 스크립트에서 키워드를 추출할 수 있다. 보다 구체적으로, 동영상 자동 생성 장치(200)는 공백을 기준으로 스크립트의 텍스트로부터 단어들을 추출할 수 있다. 그리고, 미리 생성된 단어 별 빈도 값 데이터베이스를 기초로, 추출된 단어들의 빈도 값을 측정할 수 있다. Furthermore, the automatic video creation device 200 can extract keywords from the script. More specifically, the automatic video generation device 200 can extract words from the text of the script based on spaces. And, based on a database of frequency values for each word created in advance, the frequency values of the extracted words can be measured.
그런 다음, 동영상 자동 생성 장치(200)는 추출된 단어들 각각을 대상으로 형태소 분석을 실행하여 토큰들을 생성할 수 있다. 실시예에 따르면, 토큰은 단어와 형태소 값의 쌍을 포함할 수 있으며, 빈도 값을 지시하는 레이블이 할당될 수 있다. 예를 들어, 동영상 자동 생성 장치(200)는 (빈도 값: 1000, (단어, 형태소 값)), (빈도 값: 234, (단어, 형태소)), (빈도 값: 2541, (단어, 형태소)), 및 (빈도 값: 2516, (단어, 형태소))와 같은 토큰들을 생성할 수 있다. Then, the automatic video generation device 200 may generate tokens by performing morphological analysis on each of the extracted words. According to an embodiment, a token may include a pair of words and morpheme values, and may be assigned a label indicating a frequency value. For example, the automatic video generating device 200 has (frequency value: 1000, (word, morpheme value)), (frequency value: 234, (word, morpheme)), (frequency value: 2541, (word, morpheme) ), and (frequency value: 2516, (word, morpheme)) can be created.
이후, 동영상 자동 생성 장치(200)는 각 토큰의 단어 및/또는 각 토큰의 레이블에 따라, 각 토큰에 서로 다른 가중치를 부여할 수 있다. 일 실시예에 따르면, 동영상 자동 생성 장치(200)는 토큰의 단어를 구현하는 언어의 종류(예: 영어, 중국어, 한국어 등), 스크립트의 텍스트 내에서의 단어의 위치 및/또는 토큰에 할당된 레이블이 지시하는 빈도 값에 따라, 각 토큰마다 서로 다른 가중치를 부여할 수 있다. 각 토큰마다 서로 다른 가중치를 부여하는 것에 대해서 좀 더 구체적으로 설명하면 다음과 같다. Thereafter, the automatic video generating device 200 may assign different weights to each token according to the word of each token and/or the label of each token. According to one embodiment, the automatic video generation device 200 determines the type of language that implements the words in the token (e.g., English, Chinese, Korean, etc.), the position of the words within the text of the script, and/or the characters assigned to the token. Depending on the frequency value indicated by the label, different weights can be assigned to each token. A more detailed explanation of assigning different weights to each token is as follows.
먼저, 동영상 자동 생성 장치(200)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수 및 각 토큰의 순서를 이용하여 제1 가중치를 산출할 수 있다. First, the automatic video generation device 200 may calculate the first weight using the total number of tokens generated from the text of the script and the order of each token.
구체적으로, 동영상 자동 생성 장치(200)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수를 기준으로 현재 토큰의 순서를 수치화한 값 및 언어의 종류에 따라 미리 결정된 중요 값에 근거하여, 현재 토큰에 대한 제1 가중치를 산출할 수 있다. 예를 들어, 전체 토큰의 개수가 12개이고 현재 토큰의 순서가 4번째인 경우, 12를 '1'로 가정하고, 1을 4로 나누어 '0.25'를 산출할 수 있다. 그리고 이렇게 산출된 값에, 언어의 종류에 따라 미리 결정된 중요 값을 반영하여 제1 가중치를 산출할 수 있다. 실시예에 따르면, 상기 중요 값은 현재 토큰의 순서에 따라 변경될 수 있다. 구체적으로, 중요한 단어가 문장의 말미에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값 역시 증가할 수 있다. 만약, 중요한 단어가 문장의 초반부에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값은 감소할 것이다. Specifically, the automatic video generation device 200 calculates the order of the current token based on the total number of tokens generated from the text of the script and an important value predetermined according to the type of language. The first weight can be calculated. For example, if the total number of tokens is 12 and the current token order is 4th, 12 can be assumed to be '1' and 1 can be divided by 4 to calculate '0.25'. And the first weight can be calculated by reflecting the important value predetermined according to the type of language in the value calculated in this way. According to an embodiment, the significant value may change depending on the order of the current token. Specifically, if an important word is a language that appears at the end of a sentence, the important value reflected may also increase as the order of the current token increases. If the important word is a language that appears at the beginning of the sentence, the important value reflected will decrease as the order of the current token increases.
그 다음, 동영상 자동 생성 장치(200)는 현재 토큰의 레이블이 지시하는 빈도 값, 이전 토큰의 레이블이 지시하는 빈도 값 및 다음 토큰의 레이블이 지시하는 빈도 값을 이용하여 현재 토큰에 대한 제2 가중치를 산출할 수 있다. Next, the automatic video generating device 200 creates a second weight for the current token using the frequency value indicated by the label of the current token, the frequency value indicated by the label of the previous token, and the frequency value indicated by the label of the next token. can be calculated.
마지막으로, 동영상 자동 생성 장치(200)는 제1 가중치 및 제2 가중치를 이용하여 현재 토큰에 최종 가중치를 부여할 수 있다. 그리고 최종 가중치가 부여된 토큰으로 구성되는 키워드를 추출할 수 있다.Finally, the automatic video generating device 200 may assign a final weight to the current token using the first weight and the second weight. Then, keywords consisting of tokens with final weights can be extracted.
동영상 자동 생성 장치(200)는 서로 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 장면 추천 요청 메시지를 참조 장면 추천 장치(300)에 제공할 수 있다. 그리고, 참조 장면 추천 장치(300)로부터 참조 장면을 수신할 수 있다. The automatic video generation device 200 may provide the reference scene recommendation device 300 with a reference scene recommendation request message including keywords composed of tokens with different weights. Additionally, a reference scene may be received from the reference scene recommendation device 300.
그 후, 동영상 자동 생성 장치(200)는 수신한 참조 장면과 미리 생성된 환경 데이터를 합성하여 영상을 생성할 수 있다. 이를 위해, 동영상 자동 생성 장치(200)는 시나리오에 따라 음향 데이터를 선택하고, 상기 시나리오에 해당하는 텍스트 데이터를 음성 데이터로 변환할 수 있다. 그리고, 동영상 자동 생성 장치(200)는 상기 시나리오에 따라 AI 배우를 생성할 수 있다. Thereafter, the automatic video generation device 200 may generate an image by combining the received reference scene and pre-generated environmental data. To this end, the automatic video generation device 200 may select sound data according to a scenario and convert text data corresponding to the scenario into voice data. And, the automatic video generation device 200 can generate an AI actor according to the above scenario.
한편, 참조 장면 추천 장치(300)는 고객의 요청에 따라 동영상을 자동으로 생성하기 위해서 영상을 수집하고, 수집된 영상을 기초로 참조 장면 데이터베이스를 구축할 수 있다. 또한 참조 장면 추천 장치(300)는 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하는 경우, 참조 장면 추천 요청 메시지에 포함되어 있는 키워드와 동일하거나 유사한 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다. Meanwhile, the reference scene recommendation device 300 can collect images to automatically generate videos according to customer requests and build a reference scene database based on the collected images. In addition, when the reference scene recommendation device 300 receives a reference scene recommendation request message from the automatic video generation device 200, it refers to a reference scene to which a tag that is the same or similar to a keyword included in the reference scene recommendation request message is assigned. It can be extracted from the scene database and provided to the automatic video creation device 200.
구체적으로, 참조 장면 추천 장치(300)는 영상(예: 동영상)을 수집할 수 있다. 그리고 수집된 영상을 디코딩하여 영상을 구성하는 프레임들을 획득한 다음, 재생 시간 간격으로 프레임을 샘플링할 수 있다. Specifically, the reference scene recommendation device 300 may collect images (eg, videos). Then, the collected video can be decoded to obtain the frames that make up the video, and then the frames can be sampled at playback time intervals.
이후, 참조 장면 추천 장치(300)는 샘플링된 프레임들을 재생되는 시간 순서대로 나열하고, 서로 인접합 프레임들 간의 유사도를 산출할 수 있다. 나열된 모든 프레임들을 대상으로 유사도가 산출되면, 참조 장면 추천 장치(300)는 유사도에 근거하여 프레임들을 그룹핑함으로써, 장면 단위로 분할된 복수의 참조 장면을 생성할 수 있다.Thereafter, the reference scene recommendation device 300 may list the sampled frames in the order of playback time and calculate the degree of similarity between adjacent frames. When the similarity is calculated for all the listed frames, the reference scene recommendation device 300 groups the frames based on the similarity, thereby generating a plurality of reference scenes divided by scene.
일 실시예에 따르면, 참조 장면 추천 장치(300)는서로 인접한 프레임들을 대상으로 피쳐 매칭(Feature Matching)을 수행하여, 인접한 프레임들 간의 유사도를 연산할 수 있다. 구체적으로, 참조 장면 추천 장치(300)는 서로 인접한 프레임들 간의 특징점(Keypoints)을 비교한 결과, 유사도가 기준치 이상인 경우, 해당 프레임들을 하나의 장면으로 그룹핑함으로써, 하나의 참조 장면을 생성할 수 있다. 만약, 서로 인접한 프레임들 간의 특징점을 비교한 결과, 유사도가 기준치 미만이라면, 장면이 전환된 것으로 판단할 수 있으며, 해당 프레임들을 각각 서로 다른 장면으로 그룹핑함으로써, 서로 다른 참조 영상을 생성할 수 있다. According to one embodiment, the reference scene recommendation device 300 may perform feature matching on adjacent frames to calculate similarity between adjacent frames. Specifically, the reference scene recommendation device 300 compares the keypoints between adjacent frames and, if the similarity is greater than the reference value, groups the frames into one scene to create one reference scene. . If, as a result of comparing feature points between adjacent frames, the similarity is less than the standard value, it can be determined that the scene has been switched, and different reference images can be generated by grouping the corresponding frames into different scenes.
다른 실시예에 따르면, 참조 장면 추천 장치(300)는 나열된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 개수의 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 그리고 추출된 오브젝트의 개수가 변화된 시점 또는 추출된 오브젝트의 개수가 기준치 이상으로 변화된 시점을 기준으로 참조 장면을 생성할 수 있다. According to another embodiment, the reference scene recommendation device 300 may extract objects for each listed frame and then determine whether to change the scene based on a change in the number of extracted objects. Additionally, a reference scene can be created based on the point in time when the number of extracted objects changes or the point in time when the number of extracted objects changes beyond the standard value.
또 다른 실시예에 따르면, 참조 장면 추천 장치(300)는 서로 인접한 프레임들의 픽셀들 중 위치가 동일한 픽셀들 간의 픽셀 값 변화에 근거하여 배경 변화 여부를 판단하고, 판단 결과에 근거하여 장면 전환 여부를 판단할 수 있다. 그 다음, 배경이 변화된 시점을 기준으로 참조 장면을 생성할 수 있다. According to another embodiment, the reference scene recommendation device 300 determines whether the background has changed based on a change in pixel value between pixels in adjacent frames, and determines whether or not there is a scene change based on the determination result. You can judge. Next, a reference scene can be created based on the point in time when the background changes.
또 다른 실시예에 따르면, 참조 장면 추천 장치(300)는 영상을 구성하는 음성 데이터 및/또는 자막 데이터의 내용 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 그리고 음성 데이터 및/또는 자막 데이터에서 새로운 내용이 나타나는 시점을 기준으로 참조 장면을 생성할 수 있다. According to another embodiment, the reference scene recommendation device 300 may determine whether to switch scenes based on changes in the content of audio data and/or subtitle data constituting the video. Additionally, a reference scene can be created based on the point in time when new content appears in the audio data and/or subtitle data.
또 다른 실시예에 따르면, 참조 영상 추천 장치(300)는 나열된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 종류의 변화에 근거하여 장면 전환 연부를 판단할 수 있다. 그리고 이전에 추출되었던 오브젝트가 사라지는 시점 및/또는 새로운 오브젝트가 나타나는 시점을 기준으로 참조 장면을 생성할 수 있다. According to another embodiment, the reference image recommendation device 300 may extract objects for each listed frame and then determine whether a scene change occurs based on a change in the type of the extracted object. Additionally, a reference scene can be created based on the point in time when a previously extracted object disappears and/or when a new object appears.
상술한 과정을 거쳐 장면 단위로 분할된 복수의 참조 장면이 생성되면, 참조 장면 추천 장치(300)는 복수의 참조 장면을 분석하여, 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보에 따라 서로 다른 종류의 태그를 각 참조 장면에 할당할 수 있다. 예를 들면, 추출된 특징 정보에 따라, 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그 중 하나를 할당할 수 있다. 이하, 오브젝트 속성 태그를 할당하는 과정, 화면 속성 태그를 할당하는 과정 및 상황 속성 태그를 할당하는 과정을 차례로 설명한다. When a plurality of reference scenes divided into scene units are created through the above-described process, the reference scene recommendation device 300 can analyze the plurality of reference scenes and extract characteristic information of the reference scene. And, depending on the extracted feature information, different types of tags can be assigned to each reference scene. For example, depending on the extracted feature information, one of an object attribute tag, a screen attribute tag, a situation attribute tag, and a highlight attribute tag can be assigned. Hereinafter, the process of allocating an object attribute tag, a process of allocating a screen attribute tag, and a process of assigning a situation attribute tag will be described in turn.
오브젝트 속성 태그를 할당하기 위하여, 참조 장면 추천 장치(300)는 참조 장면에서 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 특징 영역은, 오브젝트의 특징을 기술하는 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다. 특징 기술자는 기술자(Descriptor), 특징 벡터(Feature vectors) 또는 벡터 값 등으로 지칭될 수도 있으며, 오브젝트들 간의 동일 또는 유사 여부를 판단하는데 사용될 수 있다. In order to assign an object attribute tag, the reference scene recommendation device 300 may detect a feature area of an object in the reference scene (Interest Point Detection). The feature area refers to the main area from which a feature descriptor that describes the characteristics of an object is extracted. Feature descriptors may also be referred to as descriptors, feature vectors, or vector values, and may be used to determine whether objects are identical or similar.
예를 들면, 특징 영역은 오브젝트가 포함하고 있는 윤곽선, 윤곽선 중에서도 코너 등의 모퉁이, 주변 영역과 구분되는 블롭(blob), 참조 장면 데이터의 변형에 따라 불변하거나 공변하는 영역, 및/또는 주변 밝기보다 어둡거나 밝은 특징이 있는 극점을 포함할 수 있다. 특징 영역은 참조 장면의 패치(조각) 또는 참조 장면 전체를 대상으로 할 수 있다. For example, the feature area is the contour included in the object, corners such as corners among the contours, blobs that are distinct from the surrounding area, areas that are invariant or covariant according to the transformation of the reference scene data, and/or the surrounding brightness. May contain poles with dark or bright features. The feature area may target a patch (piece) of the reference scene or the entire reference scene.
참조 장면에서 오브젝트의 특징 영역을 탐지한 후, 참조 장면 추천 장치(300)는 탐지된 특징 영역에서 오브젝트의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 오브젝트 속성 태그를 할당할 수 있다. After detecting the feature area of an object in the reference scene, the reference scene recommendation device 300 may extract feature information of the object from the detected feature area. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And object attribute tags can be assigned to the reference scene according to the feature descriptor.
화면 속성 태그를 할당하기 위하여, 참조 장면 추천 장치(300)는 참조 장면의 특징 영역을 탐지할 수 있다. 그리고 탐지된 참조 장면의 특징 영역에서 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 화면 속성 태그를 할당할 수 있다. To assign a screen attribute tag, the reference scene recommendation device 300 may detect a feature area of the reference scene. And the feature information of the reference scene can be extracted from the feature area of the detected reference scene. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And screen attribute tags can be assigned to the reference scene according to the feature descriptor.
상술한 특징 기술자는 참조 장면에서 특징 영역의 위치, 특징 영역의 밝기, 색상, 선명도, 그라디언트, 스케일 및/또는 패턴 정보를 이용하여 계산할 수 있다. 예를 들어 특징 기술자는 특징 영역의 밝기 값, 밝기의 변화 값 및/또는 분포 값을 벡터로 변환하여 계산할 수 있다. The above-mentioned feature descriptor may be calculated using the location of the feature area, brightness, color, sharpness, gradient, scale and/or pattern information of the feature area in the reference scene. For example, the feature descriptor may calculate the brightness value, brightness change value, and/or distribution value of the feature area by converting them into vectors.
나아가, 특징 기술자는 상술한 바와 같은 특징 영역에 기반한 지역 기술자(Local Descriptor) 뿐 아니라, 전역 기술자(Global descriptor), 빈도 기술자(Frequency Descriptor), 바이너리 기술자(Binary Descriptor) 또는 신경망 기술자(Neural Network descriptor)로 표현될 수도 있다. Furthermore, the feature descriptor is not only a local descriptor based on the feature area as described above, but also a global descriptor, frequency descriptor, binary descriptor, or neural network descriptor. It can also be expressed as
전역 기술자(Global descriptor)는 참조 장면의 전체, 참조 장면을 임의의 기준으로 분할한 구역 각각, 또는 특징 영역 각각의 밝기, 색상, 선명도, 그라디언트, 스케일 및/또는 패턴 정보를 벡터값으로 변환할 수 있다. 빈도 기술자 (Frequency Descriptor)는 미리 구분한 특징 기술자들이 참조 장면에 포함되는 횟수 및/또는 종래 정의된 색상표와 같은 전역적 특징을 포함하는 횟수를 벡터값으로 변환할 수 있다. 바이너리 기술자(Binary descriptor)는 각 기술자들의 포함 여부 및/또는 기술자를 구성하는 각 요소 값들의 크기가 특정값 보다 크거나 작은지 여부를 비트 단위로 추출한 뒤 이를 정수형으로 변환하여 사용할 수 있다. 신경망 기술자(Neural Network descriptor)는 신경망(Neural Network)의 레이어에서 학습 또는 분류를 위해 사용되는 영상 정보를 추출할 수 있다. The global descriptor can convert the brightness, color, sharpness, gradient, scale, and/or pattern information of the entire reference scene, each area where the reference scene is divided by an arbitrary standard, or each feature area into vector values. there is. The frequency descriptor can convert the number of times pre-classified feature descriptors are included in a reference scene and/or the number of times they include global features such as a conventionally defined color table into a vector value. A binary descriptor can be used by extracting in bits whether each descriptor is included and/or whether the size of each element value constituting the descriptor is larger or smaller than a specific value, and then converting it to an integer type. A neural network descriptor can extract image information used for learning or classification from the layers of a neural network.
상황 속성 태그를 할당하기 위하여, 참조 장면 추천 장치(300)는 참조 장면을 장면 종류 분석 모델에 적용시킬 수 있다. 장면 종류 분석 모델은 장면을 입력받아, 장면 종류를 출력하도록 학습된 모델을 의미할 수 있다. 또한 장면 종류는 장면에서 표현되고 있는 상황의 종류를 의미할 수 있다. 장면 종류 분석 모델을 통해, 참조 장면에서 표현되고 있는 상황의 종류가 추출되면, 참조 장면 추천 장치(300)는 추출된 상황의 종류에 따라 참조 장면에 상황 속성 태그를 할당할 수 있다. To assign a situation attribute tag, the reference scene recommendation device 300 may apply the reference scene to a scene type analysis model. A scene type analysis model may refer to a model learned to receive a scene as input and output the scene type. Additionally, the scene type may refer to the type of situation being expressed in the scene. When the type of situation expressed in the reference scene is extracted through the scene type analysis model, the reference scene recommendation device 300 may assign a situation attribute tag to the reference scene according to the type of the extracted situation.
실시예에 따르면, 참조 장면 추천 장치(300)는 장면 종류 분석 모델을 딥 러닝 모델(Deep Learning Model) 중 하나인 CNN(Convolution Neural Network) 모델로 구축하고, 상술한 데이터 셋을 학습할 수 있다. 이때, CNN 모델은 두 개의 컨볼루션 레이어, 렐루 레이어, 맥스 풀링 레이어 및 하나의 풀리 커넥티드 레이어를 포함하도록 설계될 수 있다. 나아가, 참조 장면 추천 장치(300)는 RCNN 기법을 활용하여 CNN 모델에서 산출된 컨볼루션 피쳐 맵(Convolution Feature Maps)의 맵 순서대로 피쳐 시퀀스(Feature Sequence)를 구성한 후, 각 피쳐 시퀀스를 롱 숏 텀 메모리 네트워크(LSTM; Long Short Term Memory networks)에 대입하여 학습할 수 있다.According to an embodiment, the reference scene recommendation device 300 may build a scene type analysis model as a CNN (Convolution Neural Network) model, which is one of the deep learning models, and learn the above-described data set. At this time, the CNN model can be designed to include two convolutional layers, a relu layer, a max pooling layer, and one fully connected layer. Furthermore, the reference scene recommendation device 300 uses the RCNN technique to construct a feature sequence in the map order of the convolution feature maps calculated from the CNN model, and then converts each feature sequence into a long and short term. It can be learned by applying to memory networks (LSTM; Long Short Term Memory networks).
하이라이트 속성 태그를 할당하기 위하여, 참조 장면 추천 장치(300)는 영상에서 하이라이트 부분을 추출할 수 있다. 하이라이트 부분은 영상에서 가장 중요한 정보를 포함하고 있는 구간을 의미할 수 있다. 예를 들어, 영상의 내용이 기-승-전-결의 네 개의 구간으로 구성되는 경우, '전'에 해당하는 구간이 하이라이트 부분인 것으로 간주될 수 있다. 하이라이트 부분은 수동으로 추출될 수도 있고, 자동으로 추출될 수도 있다. 영상의 하이라이트 부분이 추출되면, 참조 장면 추천 장치(300)는 하이라이트 부분에 해당하는 참조 장면에 하이라이트 속성 태그를 할당할 수 있다. In order to assign a highlight attribute tag, the reference scene recommendation device 300 may extract a highlight portion from the image. The highlight portion may refer to the section containing the most important information in the video. For example, if the content of the video consists of four sections of 'Before', 'Before', and 'Before', the section corresponding to 'Before' may be considered the highlight section. Highlights can be extracted manually or automatically. When the highlight portion of the video is extracted, the reference scene recommendation device 300 may assign a highlight attribute tag to the reference scene corresponding to the highlight portion.
상술한 방법에 따라 복수의 참조 장면 각각에 태그를 할당한 후, 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하면, 참조 장면 추천 장치(300)는 참조 장면 추천 요청 메시지에 포함되어 있는 키워드와 동일하거나 유사한 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)에 제공할 수 있다. After assigning tags to each of a plurality of reference scenes according to the above-described method, upon receiving a reference scene recommendation request message from the automatic video generation device 200, the reference scene recommendation device 300 includes a tag in the reference scene recommendation request message. A reference scene to which a tag identical or similar to the existing keyword is assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
구체적으로, 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하면, 참조 영상 데이터 추천 장치(300)는 참조 장면 추천 요청 메시지로부터 키워드를 추출하고, 키워드를 구성하고 있는 토큰들을 추출할 수 있다. 그 다음, 참조 장면에 할당되어 있는 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그를 선택할 수 있다. 그리고 선택된 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출할 수 있다. Specifically, upon receiving a reference scene recommendation request message from the automatic video generation device 200, the reference video data recommendation device 300 may extract a keyword from the reference scene recommendation request message and extract tokens constituting the keyword. there is. Next, a tag that matches the morpheme value of the token can be selected from among a plurality of tags assigned to the reference scene. And if the selected tag and the word in the token match, the reference scene to which the tag is assigned can be extracted from the reference scene database.
일 예로, 토큰의 형태소 값이 명사인 경우, 참조 장면 추천 장치(300)는 참조 장면에 할당되어 있는 복수의 태그 중 오브젝트 속성 태그를 선택할 수 있다. 그리고 오브젝트 속성 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다.For example, when the morpheme value of the token is a noun, the reference scene recommendation device 300 may select an object attribute tag from a plurality of tags assigned to the reference scene. And if the object attribute tag and the word in the token match, the reference scene to which the corresponding tag is assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
다른 예로, 토큰의 형태소 값이 형용사인 경우, 참조 장면 추천 장치(300)는 참조 장면에 할당되어 있는 복수의 태그 중 화면 속성 태그 및 상황 속성 태그를 선택할 수 있다. 그리고 화면 속성 태그와 토큰의 단어가 일치하고, 상황 속성 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다.As another example, when the morpheme value of the token is an adjective, the reference scene recommendation device 300 may select a screen attribute tag and a situation attribute tag from a plurality of tags assigned to the reference scene. And if the screen attribute tag and the word in the token match, and the situation attribute tag and the word in the token match, the reference scene to which the corresponding tag is assigned is extracted from the reference scene database and provided to the automatic video creation device 200. You can.
한편, 참조 장면 추천 장치(300)는 토큰의 형태소 값과 매칭되지 않은 태그가 할당되어 있는 참조 장면을 대상으로, 상기 참조 영상에 할당되어 있는 복수의 태그 각각과 토큰의 단어 간의 유사도 비율을 산출할 수 있다. 그리고 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 장면을 참조 장면 데이터베이스에서 추출하여 동영상 자동 생성 장치(200)로 제공할 수 있다.Meanwhile, the reference scene recommendation device 300 calculates the similarity ratio between each of a plurality of tags assigned to the reference image and the word of the token, targeting a reference scene to which a tag that does not match the morpheme value of the token is assigned. You can. Additionally, reference scenes to which tags with a similarity ratio greater than a certain ratio are assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
구체적으로, 참조 장면 추천 장치(300)는 참조 장면에 할당된 태그를 구성하는 문자 및 상기 토큰의 단어를 구성하는 문자를 비교하여, 일치하는 문자의 개수를 산출할 수 있다. 그리고, 태그에 해당하는 스트링 수 및 상기 토큰의 단어에 해당하는 스트링 수를 비교하여, 더 긴 스트링 수를 선택할 수 있다. 그리고 선택된 스트링 수 대비 상기 일치하는 문자의 개수의 비율을 나타내는 유사도 비율을 산출할 수 있다. 그리고, 상기 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 장면을 참조 장면 데이터베이스에서 추출하여 동영상 자동 생성 장치(200)로 제공할 수 있다. Specifically, the reference scene recommendation device 300 may compare the characters constituting the tag assigned to the reference scene and the characters constituting the word of the token to calculate the number of matching characters. Also, by comparing the number of strings corresponding to the tag and the number of strings corresponding to the word of the token, a longer number of strings can be selected. Additionally, a similarity ratio representing the ratio of the number of matching characters to the number of selected strings can be calculated. In addition, reference scenes to which tags with a similarity ratio greater than a certain ratio are assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
상술한 바와 같은 동영상 자동 생성 장치(200) 및/또는 참조 장면 추천 장치(300)는 예를 들어, 웹 서비스 제공 서버에 포함되는 형태로 구현될 수 있다. 웹 서비스 제공 서버는 사용자 단말(500)로 다양한 컨텐츠를 제공할 수 있다. 사용자 단말(500)로 제공되는 컨텐츠의 종류는 사용자 단말(500)이 웹 서비스 제공 서버에 접속하기 위해 사용한 어플리케이션의 종류에 따라 달라질 수 있다. 이러한 웹 서비스 제공 서버는 온라인 쇼핑몰 서버 또는 검색 엔진 서버로 구현될 수 있다.The automatic video generation device 200 and/or the reference scene recommendation device 300 as described above may be implemented as included in, for example, a web service providing server. The web service providing server can provide various contents to the user terminal 500. The type of content provided to the user terminal 500 may vary depending on the type of application used by the user terminal 500 to access the web service providing server. This web service providing server may be implemented as an online shopping mall server or a search engine server.
고객 단말(400)은 웹 서비스 제공 서버에 접속하기 위한 어플리케이션을 포함할 수 있다. 따라서, 고객에 의해 어플리케이션이 선택되어 실행되면, 고객 단말(400)은 어플리케이션을 통해 동영상 자동 생성 장치(200)에 접속할 수 있다. 이후, 고객이 영상 생성 참조 정보를 고객 단말(400)로 입력하면, 고객 단말(400)은 입력된 영상 생성 참조 정보를 동영상 자동 생성 장치(200)에 제공하여 영상 자동 생성을 요청할 수 있다. The customer terminal 400 may include an application for accessing a web service providing server. Accordingly, when the application is selected and executed by the customer, the customer terminal 400 can access the automatic video generating device 200 through the application. Thereafter, when the customer inputs video generation reference information into the customer terminal 400, the customer terminal 400 may request automatic video generation by providing the input video generation reference information to the automatic video generation device 200.
고객 단말(400)과 마찬가지로, 사용자 단말(500)은 웹 서비스 제공 서버에 접속하기 위한 어플리케이션을 포함할 수 있다. 따라서, 사용자에 의해 어플리케이션이 선택되어 실행되면, 사용자 단말(500)은 어플리케이션을 통해 웹 서비스 제공 서버에 접속할 수 있다. Like the customer terminal 400, the user terminal 500 may include an application for accessing a web service providing server. Accordingly, when the application is selected and executed by the user, the user terminal 500 can access the web service providing server through the application.
사용자 단말(500)은 어플리케이션을 통해 웹 서비스 제공 서버에서 제공되는 웹 페이지를 표시할 수 있다. 웹 페이지는 사용자의 스크롤 입력에 따라 화면에 즉시 표시될 수 있도록 전자장치에 로딩된 화면 및/또는 상기 화면 내부의 컨텐츠를 포함할 수 있다. 예를 들어, 사용자 단말(500)의 어플리케이션 상에서 웹 페이지가 표시된 상태에서 수평 또는 수직 방향으로 길게 연장되어 사용자의 스크롤에 따라 표시되는 어플리케이션의 실행 화면 전체가 웹 페이지의 개념에 포함될 수 있다. 또한, 카메라 롤 중인 화면 역시 웹 페이지의 개념에 포함될 수 있다. The user terminal 500 can display a web page provided from a web service providing server through an application. A web page may include a screen loaded on an electronic device and/or content within the screen so that it can be immediately displayed on the screen according to a user's scroll input. For example, while a web page is displayed on an application of the user terminal 500, the entire application execution screen that extends horizontally or vertically and is displayed as the user scrolls may be included in the concept of a web page. Additionally, the camera roll screen can also be included in the concept of a web page.
한편, 사용자 단말(500)은 사용자 관심사 분석을 위한 어플리케이션(예를 들어, 소프트웨어, 신경망 모델 등)을 포함할 수 있다. 따라서, 사용자 단말(500)은 로그 기록 및/또는 인게이지먼트 기록을 수집하여 저장하고, 사용자 관심사 분석을 위한 어플리케이션를 통해 로그 기록 및/또는 인게이지먼트 기록을 분석하여 사용자의 관심사를 결정할 수 있다. Meanwhile, the user terminal 500 may include an application (eg, software, neural network model, etc.) for analyzing user interests. Accordingly, the user terminal 500 may collect and store log records and/or engagement records and determine the user's interests by analyzing the log records and/or engagement records through an application for user interest analysis.
일 실시예에 따르면, 사용자 단말(500)은 사용자 단말(500)에 저장되어 있는 로그 기록 및/또는 인게이지먼트 기록을 분석하여 컨텐츠를 추출할 수 있으며, 추출된 컨텐츠의 종류를 지시하는 레이블을 추출할 수 있다. 로그 기록은 사용자 단말(500)의 운영체제 또는 소프트웨어가 실행되고 있는 중에 발생되는 이벤트를 기록함으로써 생성될 수 있다. 인게이지먼트 기록은 사용자가 관심을 가지고, 참여하고, 관계를 맺는 일련의 약속된 행동을 하는 경우, 이러한 행동을 기록함으로써 생성될 수 있다. 사용자의 행동 정보는 사용자가 웹 브라우저를 통해 컨텐츠를 열람하는 것, 사용자가 소셜 네트워크를 통해 컨텐츠에 '좋아요' 태그를 생성하는 것, 사용자가 홈페이지의 이미지나 텍스트를 열람하는 것 등의 행위뿐만 아니라, 이러한 행위의 대상, 이러한 행위가 발생한 시각, 이러한 행위가 유지된 시간도 포함할 수 있다. 추출된 컨텐츠의 종류를 지시하는 레이블은 예를 들어, 추출된 컨텐츠가 사용자의 관심사에 해당하는지 그렇지 않은지를 지시할 수 있다. 추출된 컨텐츠의 종류를 지시하는 레이블은 로그 기록 및/또는 인게이지먼트 기록을 분석하여 추출될 수도 있고, 사전에 저장된 레이블들 중에서 추출될 수도 있다.According to one embodiment, the user terminal 500 may extract content by analyzing log records and/or engagement records stored in the user terminal 500, and create a label indicating the type of extracted content. It can be extracted. Log records may be created by recording events that occur while the operating system or software of the user terminal 500 is running. Engagement records can be created by recording a set of committed actions that result in a user becoming interested, participating, and engaging. User behavior information includes not only actions such as the user viewing content through a web browser, the user creating a 'like' tag on content through social networks, and the user viewing images or text on the homepage. , it can also include the object of these actions, the time when these actions occurred, and the time these actions were maintained. A label indicating the type of extracted content may indicate, for example, whether the extracted content corresponds to the user's interests or not. A label indicating the type of extracted content may be extracted by analyzing log records and/or engagement records, or may be extracted from labels stored in advance.
다른 실시예에 따르면, 사용자 단말(500)은 크롤러, 파서, 인덱서를 구비할 수 있으며, 이를 통해 사용자가 열람하는 웹 페이지를 수집할 수 있다. 그리고, 수집된 웹 페이지에 포함된 아이템 정보(예: 이미지, 아이템명, 및 아이템 가격)에 접근하여 컨텐츠 및 컨텐츠의 종류를 지시하는 레이블을 추출할 수 있다. 구체적으로, 크롤러는 사용자가 열람하는 웹 주소 목록을 수집하고, 웹사이트를 확인하여 링크를 추적하는 방식으로 아이템 정보와 관련된 데이터를 수집할 수 있다. 파서는 크롤링 과정 중에 수집된 웹 페이지를 해석하여 페이지에 포함된 이미지, 아이템 가격, 및 아이템명 등의 아이템 정보를 추출할 수 있다. 인덱서는 추출된 아이템 정보에 위치와 의미를 색인할 수 있다. According to another embodiment, the user terminal 500 may be equipped with a crawler, a parser, and an indexer, through which web pages viewed by the user may be collected. Additionally, the item information (e.g., image, item name, and item price) included in the collected web pages can be accessed to extract content and a label indicating the type of content. Specifically, the crawler can collect data related to item information by collecting a list of web addresses that users browse, checking websites, and tracking links. The parser can interpret web pages collected during the crawling process and extract item information such as images, item prices, and item names included in the page. The indexer can index the location and meaning of the extracted item information.
도 2는 본 개시의 일 실시예에 따른 동영상 자동 생성 장치를 도시한 도면이다. Figure 2 is a diagram illustrating an automatic video generation device according to an embodiment of the present disclosure.
도 2를 참조하면, 동영상 자동 생성 장치(200)는 스크립트 생성부(210), 시나리오 생성부(220), 키워드 추출부(230), 참조 장면 송수신부(240), 환경 데이터 생성부(250) 및 영상 합성부(260)를 포함할 수 있다. Referring to FIG. 2, the automatic video generation device 200 includes a script creation unit 210, a scenario creation unit 220, a keyword extraction unit 230, a reference scene transmission/reception unit 240, and an environment data creation unit 250. and an image synthesis unit 260.
스크립트 생성부(210)는 고객 단말(400)로부터 단어 단위의 키워드를 포함하는 영상 생성 참조 정보가 수신되면, 수신된 영상 생성 참조 정보와 미리 생성된 스크립트 데이터베이스를이용하여 스크립트를 생성할 수 있다. When image generation reference information including keywords in word units is received from the customer terminal 400, the script generator 210 may generate a script using the received image generation reference information and a pre-generated script database.
구체적으로, 스크립트 생성부(210)는 영상 생성 참조 정보에 포함된 키워드를 스크립트 데이터베이스에서 검색한 다음, 검색된 키워드에 해당하는 오브젝트의 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성, 오브젝트와 매칭되는 장면의 상황 속성 및 오브젝트와 매칭되는 장면의 하이라이트 속성 중 고객과 관련된 컨텐츠를 이용한 사용자의 행동 정보를 기초로 결정된 속성과 매칭되는 텍스트를 이용하여 스크립트를 생성할 수 있다. Specifically, the script generator 210 searches the script database for keywords included in the image generation reference information, and then generates object properties of the object corresponding to the searched keyword, screen properties of the scene matching the object, and scenes matching the object. A script can be created using text that matches the attributes determined based on the user's behavior information using content related to the customer among the highlight attributes of the scene matching the situation attributes and objects.
시나리오 생성부(220)는 스크립트 생성부(210)에 의해 생성된 스크립트를 기초로 기준 장면으로 구성된 시나리오를 생성할 수 있다. 실시예에 따르면, 시나리오는 기준 장면 외에도 음향 효과 및/또는 분위기를 더 포함할 수 있다. The scenario generator 220 may generate a scenario composed of a standard scene based on the script generated by the script generator 210. According to embodiments, the scenario may further include sound effects and/or atmosphere in addition to the reference scene.
키워드 추출부(230)는 스크립트 생성부(210)에 의해 생성된 스크립트에서 키워드를 추출할 수 있다. 보다 구체적으로, 키워드 추출부(230)는 공백을 기준으로 스크립트의 텍스트로부터 단어들을 추출할 수 있다. 그리고, 미리 생성된 단어 별 빈도 값 데이터베이스를 기초로, 추출된 단어들의 빈도 값을 측정할 수 있다. The keyword extraction unit 230 may extract keywords from the script generated by the script creation unit 210. More specifically, the keyword extractor 230 may extract words from the text of the script based on spaces. And, based on a database of frequency values for each word created in advance, the frequency values of the extracted words can be measured.
그 후, 키워드 추출부(230)는 추출된 단어들 각각을 대상으로 형태소 분석을 실행하여 토큰을 생성할 수 있다. 실시예에 따르면, 토큰은 단어와 형태소 값의 쌍을 포함할 수 있으며, 빈도 값을 지시하는 레이블이 할당될 수 있다. 예를 들어, 키워드 추출부(230)는 (빈도 값: 1000, (단어, 형태소 값)), (빈도 값: 234, (단어, 형태소)), (빈도 값: 2541, (단어, 형태소)), 및 (빈도 값: 2516, (단어, 형태소))와 같은 토큰들을 생성할 수 있다. Afterwards, the keyword extraction unit 230 may generate a token by performing morphological analysis on each of the extracted words. According to an embodiment, a token may include a pair of words and morpheme values, and may be assigned a label indicating a frequency value. For example, the keyword extraction unit 230 has (frequency value: 1000, (word, morpheme value)), (frequency value: 234, (word, morpheme)), (frequency value: 2541, (word, morpheme)) Tokens such as , and (frequency value: 2516, (word, morpheme)) can be generated.
이후, 키워드 추출부(230)는 각 토큰의 단어 및/또는 레이블에 따라, 각 토큰에 서로 다른 가중치를 부여할 수 있다. 일 실시예에 따르면, 키워드 추출부(230)는 토큰의 단어를 구현하는 언어의 종류(예: 영어, 중국어, 한국어 등), 스크립트의 텍스트 내에서의 단어의 위치 및/또는 토큰에 할당된 레이블이 지시하는 빈도 값에 따라, 각 토큰마다 서로 다른 가중치를 부여할 수 있다. 각 토큰마다 서로 다른 가중치를 부여하는 것에 대해서 좀 더 구체적으로 설명하면 다음과 같다.Thereafter, the keyword extractor 230 may assign different weights to each token according to the word and/or label of each token. According to one embodiment, the keyword extraction unit 230 determines the type of language (e.g., English, Chinese, Korean, etc.) that implements the word in the token, the position of the word within the text of the script, and/or the label assigned to the token. Depending on the frequency value indicated, different weights can be assigned to each token. A more detailed explanation of assigning different weights to each token is as follows.
먼저, 키워드 추출부(230)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수 및 각 토큰의 순서를 이용하여 제1 가중치를 산출할 수 있다. First, the keyword extractor 230 may calculate the first weight using the total number of tokens generated from the text of the script and the order of each token.
구체적으로, 키워드 추출부(230)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수를 기준으로 현재 토큰의 순서를 수치화한 값 및 언어의 종류에 따라 미리 결정된 중요 값에 근거하여, 현재 토큰에 대한 제1 가중치를 산출할 수 있다. 예를 들어, 키워드 추출부(230)는 전체 토큰의 개수가 12개이고 토큰의 순서가 4번째인 경우, 12를 '1'로 가정하고, 1을 4로 나누어 '0.25'를 산출할 수 있다. 그리고 이렇게 산출된 값에, 언어의 종류에 따라 미리 결정된 중요 값을 반영하여 제1 가중치를 산출할 수 있다. 실시예에 따르면, 상기 중요 값은 현재 토큰의 순서에 따라 변경될 수 있다. 구체적으로, 중요한 단어가 문장의 말미에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값 역시 증가할 수 있다. 만약, 중요한 단어가 문장의 초반부에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값은 감소할 것이다. Specifically, the keyword extraction unit 230 quantifies the order of the current token based on the total number of tokens generated from the text of the script and an important value predetermined according to the type of language, and provides information on the current token. 1 Weight can be calculated. For example, if the total number of tokens is 12 and the token order is 4th, the keyword extractor 230 may assume 12 as '1' and divide 1 by 4 to calculate '0.25'. And the first weight can be calculated by reflecting the important value predetermined according to the type of language in the value calculated in this way. According to an embodiment, the significant value may change depending on the order of the current token. Specifically, if an important word is a language that appears at the end of a sentence, the important value reflected may also increase as the order of the current token increases. If the important word is a language that appears at the beginning of the sentence, the important value reflected will decrease as the order of the current token increases.
그 다음, 키워드 추출부(230)는 현재 토큰의 레이블이 지시하는 빈도 값, 이전 토큰의 레이블이 지시하는 빈도 값 및 다음 토큰의 레이블이 지시하는 빈도 값을 이용하여 제2 가중치를 산출할 수 있다. Next, the keyword extractor 230 may calculate the second weight using the frequency value indicated by the label of the current token, the frequency value indicated by the label of the previous token, and the frequency value indicated by the label of the next token. .
마지막으로, 키워드 추출부(230)는 제1 가중치 및 제2 가중치를 이용하여 현재 토큰에 최종 가중치를 부여할 수 있다. 그리고 최종 가중치가 부여된 토큰들로 구성되는 키워드를 추출할 수 있다.Finally, the keyword extractor 230 may assign a final weight to the current token using the first weight and the second weight. Then, keywords consisting of tokens with final weights can be extracted.
참조 장면 송수신부(240)는 서로 다른 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 장면 추천 요청 메시지를 참조 장면 추천 장치(300)에 제공하고, 참조 장면 추천 장치(300)로부터 참조 장면을 수신할 수 있다. The reference scene transceiver 240 provides a reference scene recommendation request message containing keywords composed of tokens with different weights to the reference scene recommendation device 300, and selects the reference scene from the reference scene recommendation device 300. You can receive it.
환경 데이터 생성부(250)는 시나리오에 따라 음향 데이터를 선택할 수 있다. 그리고 상기 시나리오에 해당하는 텍스트 데이터를 음성 데이터로 변환할 수 있다. 나아가 상기 시나리오에 따라 AI 배우를 생성할 수 있다. The environmental data generator 250 may select sound data according to the scenario. And text data corresponding to the above scenario can be converted into voice data. Furthermore, an AI actor can be created according to the above scenario.
영상 합성부(260)는 참조 장면 송수신부(240)로 수신된 참조 장면 및 환경 데이터 생성부(250)에서 생성된 환경 데이터를 합성하여 영상을 생성할 수 있다. The image synthesis unit 260 may generate an image by combining the reference scene received by the reference scene transmission/reception unit 240 and the environment data generated by the environment data generation unit 250.
도 3은 본 개시의 일 실시예에 따른 참조 장면 추천 장치를 도면이다. Figure 3 is a diagram of a reference scene recommendation device according to an embodiment of the present disclosure.
도 3을 참조하면, 참조 장면 추천 장치(300)는 수집된 영상을 기초로 참조 장면 데이터베이스를 구축할 수 있다. 또한 참조 장면 추천 장치(300)는 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하는 경우, 참조 장면 추천 용청 메시지에 포함되어 있는 키워드와 동일하거나 유사한 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다. 이를 위해, 참조 장면 추천 장치(300)는 영상 분할부(310), 태그 할당부(320), 참조 장면 데이터베이스(330) 및 참조 장면 추천부(340)를 포함할 수 있다. Referring to FIG. 3, the reference scene recommendation device 300 may build a reference scene database based on the collected images. Additionally, when receiving a reference scene recommendation request message from the automatic video generation device 200, the reference scene recommendation device 300 refers to a reference scene to which a tag that is the same or similar to a keyword included in the reference scene recommendation request message is assigned. It can be extracted from the scene database and provided to the automatic video creation device 200. To this end, the reference scene recommendation device 300 may include an image segmentation unit 310, a tag allocation unit 320, a reference scene database 330, and a reference scene recommendation unit 340.
영상 분할부(310)는 영상(예: 동영상)을 수집할 수 있다. 그리고 수집된 영상을 디코딩하여 영상을 구성하는 프레임들을 획득한 다음, 재생 시간 간격으로 프레임을 샘플링할 수 있다. The image segmentation unit 310 may collect images (eg, videos). Then, the collected video can be decoded to obtain the frames that make up the video, and then the frames can be sampled at playback time intervals.
이후, 영상 분할부(310)는 샘플링된 프레임들을 재생되는 시간 순서대로 나열하고, 서로 인접한 프레임들 간의 유사도를 산출할 수 있다. 나열된 모든 프레임들을 대상으로 유사도가 산출되면, 참조 장면 추천 장치(300)는 유사도에 근거하여 프레임들을 그룹핑함으로써, 장면 단위로 분할된 복수의 참조 장면을 생성할 수 있다. Thereafter, the image segmentation unit 310 may arrange the sampled frames in the order of playback time and calculate the degree of similarity between adjacent frames. When the similarity is calculated for all the listed frames, the reference scene recommendation device 300 groups the frames based on the similarity, thereby generating a plurality of reference scenes divided by scene.
일 실시예에 따르면, 영상 분할부(310)는 서로 인접한 프레임들을 대상으로 피쳐 매칭(Feature Matching)을 수행하여, 인접한 프레임들 간의 유사도를 연산할 수 있다. 구체적으로, 영상 분할부(310)는 서로 인접한 프레임들 간의 특징점(Keypoints)을 비교한 결과, 유사도가 기준치 이상인 경우, 해당 프레임들을 하나의 장면으로 그룹핑함으로써, 하나의 참조 장면을 생성할 수 있다. 만약, 서로 인접한 프레임들 간의 특징점을 비교한 결과, 유사도가 기준치 미만이라면, 장면이 전환된 것으로 판단할 수 있으며, 해당 프레임들을 각각 서로 다른 장면으로 그룹핑함으로써, 서로 다른 참조 영상을 생성할 수 있다. According to one embodiment, the image segmentation unit 310 may perform feature matching on adjacent frames to calculate the degree of similarity between adjacent frames. Specifically, the image segmentation unit 310 may compare keypoints between adjacent frames and, if the similarity is greater than or equal to a reference value, generate one reference scene by grouping the corresponding frames into one scene. If, as a result of comparing feature points between adjacent frames, the similarity is less than the standard value, it can be determined that the scene has been switched, and different reference images can be generated by grouping the corresponding frames into different scenes.
다른 실시예에 따르면, 영상 분할부(310)는 나열된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 개수의 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 그리고 추출된 오브젝트의 개수가 변화된 시점 또는 추출된 오브젝트의 개수가 기준치 이상으로 변화된 시점을 기준으로 참조 장면을 생성할 수 있다. According to another embodiment, the image segmentation unit 310 may extract objects for each listed frame and then determine whether to change the scene based on a change in the number of extracted objects. Additionally, a reference scene can be created based on the point in time when the number of extracted objects changes or the point in time when the number of extracted objects changes beyond the standard value.
또 다른 실시예에 따르면, 영상 분할부(310)는 서로 인접한 프레임들의 픽셀들 중 위치가 동일한 픽셀들 간의 픽셀 값 변화에 근거하여 배경 변화 여부를 판단하고, 판단 결과에 근거하여 장면 전환 여부를 판단할 수 있다. 그 다음, 배경이 변화된 시점을 기준으로 참조 장면을 생성할 수 있다.According to another embodiment, the image segmentation unit 310 determines whether the background changes based on the change in pixel value between pixels of the same position among pixels of adjacent frames, and determines whether there is a scene change based on the determination result. can do. Next, a reference scene can be created based on the point in time when the background changes.
또 다른 실시예에 따르면, 영상 분할부(310)는 영상을 구성하는 음성 데이터 및/또는 자막 데이터의 내용 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 그리고 음성 데이터 및/또는 자막 데이터에서 새로운 내용이 나타나는 시점을 기준으로 참조 장면을 생성할 수 있다. According to another embodiment, the video segmentation unit 310 may determine whether to change the scene based on a change in the content of the audio data and/or subtitle data constituting the video. Additionally, a reference scene can be created based on the point in time when new content appears in the audio data and/or subtitle data.
또 다른 실시예에 따르면, 영상 분할부(310)는 나열된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 종류의 변화에 근거하여 장면 전환 연부를 판단할 수 있다. 그리고 이전에 추출되었던 오브젝트가 사라지는 시점 및/또는 새로운 오브젝트가 나타나는 시점을 기준으로 참조 장면을 생성할 수 있다. According to another embodiment, the image segmentation unit 310 may extract objects for each listed frame and then determine the beginning of a scene change based on a change in the type of the extracted object. Additionally, a reference scene can be created based on the point in time when a previously extracted object disappears and/or when a new object appears.
태그 할당부(320)는 복수의 참조 장면을 분석하여, 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보에 따라 서로 다른 종류의 태그를 각 참조 장면에 할당할 수 있다. 예를 들면, 추출된 특징 정보에 따라, 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그 중 하나를 할당할 수 있다.The tag allocator 320 may analyze a plurality of reference scenes and extract characteristic information of the reference scenes. And, depending on the extracted feature information, different types of tags can be assigned to each reference scene. For example, depending on the extracted feature information, one of an object attribute tag, a screen attribute tag, a situation attribute tag, and a highlight attribute tag can be assigned.
오브젝트 속성 태그를 할당하기 위하여, 태그 할당부(320)는 참조 장면에서 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 특징 영역은, 오브젝트의 특징을 기술하는 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다. 특징 기술자는 기술자(Descriptor), 특징 벡터(Feature vectors) 또는 벡터 값 등으로 지칭될 수도 있으며, 오브젝트들 간의 동일 또는 유사 여부를 판단하는데 사용될 수 있다. In order to assign an object attribute tag, the tag allocator 320 may detect a characteristic area of an object in a reference scene (Interest Point Detection). The feature area refers to the main area from which a feature descriptor that describes the characteristics of an object is extracted. Feature descriptors may also be referred to as descriptors, feature vectors, or vector values, and may be used to determine whether objects are identical or similar.
예를 들면, 특징 영역은 오브젝트가 포함하고 있는 윤곽선, 윤곽선 중에서도 코너 등의 모퉁이, 주변 영역과 구분되는 블롭(blob), 참조 장면의 변형에 따라 불변하거나 공변하는 영역, 및/또는 주변 밝기보다 어둡거나 밝은 특징이 있는 극점을 포함할 수 있다. 특징 영역은 참조 장면의 패치(조각) 또는 참조 장면의 전체를 대상으로 할 수 있다. For example, feature areas include the contours of the object, corners such as corners among the contours, blobs that are distinct from the surrounding area, areas that are invariant or covariant depending on the deformation of the reference scene, and/or are darker than the surrounding brightness. Or it may contain poles with bright features. The feature area may target a patch (piece) of the reference scene or the entire reference scene.
참조 장면에서 오브젝트의 특징 영역을 탐지한 후, 태그 할당부(320)는 탐지된 특징 영역에서 오브젝트의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 오브젝트 속성 태그를 할당할 수 있다. After detecting the feature area of the object in the reference scene, the tag allocator 320 may extract feature information of the object from the detected feature area. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And object attribute tags can be assigned to the reference scene according to the feature descriptor.
화면 속성 태그를 할당하기 위하여, 태그 할당부(320)는 참조 장면의 특징 영역을 탐지할 수 있다. 그리고 탐지된 참조 장면의 특징 영역에서 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 화면 속성 태그를 할당할 수 있다. To assign a screen attribute tag, the tag allocator 320 may detect a feature area of a reference scene. And the feature information of the reference scene can be extracted from the feature area of the detected reference scene. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And screen attribute tags can be assigned to the reference scene according to the feature descriptor.
상술한 특징 기술자는 참조 장면에서 특징 영역의 위치, 특징 영역의 밝기, 색상, 선명도, 그라디언트, 스케일 및/또는 패턴 정보를 이용하여 계산할 수 있다. 예를 들어 특징 기술자는 특징 영역의 밝기 값, 밝기의 변화 값 및/또는 분포 값을 벡터로 변환하여 계산할 수도 있다. The above-described feature descriptor may be calculated using the location of the feature area, brightness, color, sharpness, gradient, scale and/or pattern information of the feature area in the reference scene. For example, the feature descriptor may calculate the brightness value, brightness change value, and/or distribution value of the feature area by converting them into vectors.
상황 속성 태그를 할당하기 위하여, 태그 할당부(320)는 참조 장면을 장면 종류 분석 모델에 적용시킬 수 있다. 장면 종류 분석 모델은 장면을 입력받아, 장면 종류를 출력하도록 학습된 모델을 의미할 수 있다. 또한 장면 종류는 장면에서 표현되고 있는 상황의 종류를 의미할 수 있다. 장면 종류 분석 모델을 통해, 참조 장면에서 표현되고 있는 상황의 종류가 추출되면, 태그 할당부(320)는 추출된 상황의 종류에 따라 참조 장면에 상황 속성 태그를 할당할 수 있다. To assign a situation attribute tag, the tag allocation unit 320 may apply the reference scene to the scene type analysis model. A scene type analysis model may refer to a model learned to receive a scene as input and output the scene type. Additionally, the scene type may refer to the type of situation being expressed in the scene. When the type of situation expressed in the reference scene is extracted through the scene type analysis model, the tag allocation unit 320 may assign a situation attribute tag to the reference scene according to the type of the extracted situation.
실시예에 따르면, 태그 할당부(320)는 장면 종류 분석 모델을 딥 러닝 모델(Deep Learning Model) 중 하나인 CNN(Convolution Neural Network) 모델로 구축하고, 상술한 데이터 셋을 학습할 수 있다. 이때, CNN 모델은 두 개의 컨볼루션 레이어, 렐루 레이어, 맥스 풀링 레이어 및 하나의 풀리 커넥티드 레이어를 포함하도록 설계될 수 있다. 나아가, 태그 할당부(320)는 RCNN 기법을 활용하여 CNN에서 산출된 컨볼루션 피쳐 맵(Convolution Feature Maps)의 맵 순서대로 피쳐 시퀀스(Feature Sequence)를 구성한 후, 각 피쳐 시퀀스를 롱 숏 텀 메모리 네트워크(LSTM; Long Short Term Memory networks)에 대입하여 학습할 수 있다.According to an embodiment, the tag allocator 320 may build a scene type analysis model as a CNN (Convolution Neural Network) model, which is one of the deep learning models, and learn the above-described data set. At this time, the CNN model can be designed to include two convolutional layers, a relu layer, a max pooling layer, and one fully connected layer. Furthermore, the tag allocation unit 320 uses the RCNN technique to construct a feature sequence in the map order of the convolution feature maps calculated from the CNN, and then stores each feature sequence in a long-short-term memory network. It can be learned by substituting for (LSTM; Long Short Term Memory networks).
하이라이트 속성 태그를 할당하기 위하여, 태그 할당부(320)는 영상에서 하이라이트 부분을 추출추출할 수 있다. 하이라이트 부분은 영상에서 가장 중요한 정보를 포함하고 있는 구간을 의미할 수 있다. 예를 들어, 영상의 내용이 기-승-전-결의 네 개의 구간으로 구성되는 경우, '전'에 해당하는 구간이 하이라이트 부분인 것으로 간주될 수 있다. 하이라이트 부분은 수동으로 추출될 수도 있고, 자동으로 추출될 수도 있다. 영상의 하이라이트 부분이 추출되면, 태그 할당부(320)는 하이라이트 부분에 해당하는 참조 장면에 하이라이트 속성 태그를 할당할 수 있다. In order to assign a highlight attribute tag, the tag allocation unit 320 may extract the highlight portion from the video. The highlight portion may refer to the section containing the most important information in the video. For example, if the content of the video consists of four sections of 'Before', 'Before', and 'Before', the section corresponding to 'Before' may be considered the highlight section. Highlights can be extracted manually or automatically. When the highlight portion of the video is extracted, the tag allocation unit 320 may assign a highlight attribute tag to the reference scene corresponding to the highlight portion.
태그 할당부(320)에 의해 태그가 할당된 참조 장면은 참조 장면 데이터베이스(330)에 저장될 수 있다. 실시예에 따르면, 참조 장면 데이터베이스(330)에는 참조 장면의 시작 시간, 참조 장면의 종료 시간 및 참조 장면에 할당된 하나 이상의 태그들이 테이블 형식으로 저장될 수 있다. Reference scenes to which tags are assigned by the tag allocation unit 320 may be stored in the reference scene database 330. According to an embodiment, the reference scene database 330 may store the start time of the reference scene, the end time of the reference scene, and one or more tags assigned to the reference scene in a table format.
참조 장면 추천부(340)는 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하는 경우, 참조 장면 추천 요청 메시지로부터 키워드를 추출할 수 있다. 그리고 키워드를 구성하고 있는 토큰들을 추출할 수 있다. 그 다음, 참조 장면에 할당되어 있는 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그를 선택할 수 있다. 그리고 선택된 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출할 수 있다.When receiving a reference scene recommendation request message from the automatic video generating device 200, the reference scene recommendation unit 340 may extract a keyword from the reference scene recommendation request message. And the tokens that make up the keyword can be extracted. Next, a tag that matches the morpheme value of the token can be selected from among a plurality of tags assigned to the reference scene. And if the selected tag and the word in the token match, the reference scene to which the tag is assigned can be extracted from the reference scene database.
..
일 예로, 토큰의 형태소 값이 명사인 경우, 참조 장면 추천 장치(300)는 참조 장면에 할당되어 있는 복수의 태그 중 오브젝트 속성 태그를 선택할 수 있다. 그리고 오브젝트 속성 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다.For example, when the morpheme value of the token is a noun, the reference scene recommendation device 300 may select an object attribute tag from a plurality of tags assigned to the reference scene. And if the object attribute tag and the word in the token match, the reference scene to which the corresponding tag is assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
다른 예로, 토큰의 형태소 값이 형용사인 경우, 참조 장면 추천 장치(300)는 참조 장면에 할당되어 있는 복수의 태그 중 화면 속성 태그 및 상황 속성 태그를 선택할 수 있다. 그리고 화면 속성 태그와 토큰의 단어가 일치하고, 상황 속성 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다. As another example, when the morpheme value of the token is an adjective, the reference scene recommendation device 300 may select a screen attribute tag and a situation attribute tag from a plurality of tags assigned to the reference scene. And if the screen attribute tag and the word in the token match, and the situation attribute tag and the word in the token match, the reference scene to which the corresponding tag is assigned is extracted from the reference scene database and provided to the automatic video creation device 200. You can.
한편, 참조 장면 추천부(340)는 토큰의 형태소 값과 매칭되지 않은 태그가 할당되어 있는 참조 영상을 대상으로, 상기 참조 영상에 할당되어 있는 복수의 태그 각각과 토큰의 단어 간의 유사도 비율을 산출할 수 있다. 그리고 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 장면을 참조 장면 데이터베이스에서 추출하여 동영상 자동 생성 장치(200)로 제공할 수 있다.Meanwhile, the reference scene recommendation unit 340 targets a reference image to which a tag that does not match the morpheme value of the token is assigned, and calculates the similarity ratio between each of the plurality of tags assigned to the reference image and the word of the token. You can. Additionally, reference scenes to which tags with a similarity ratio greater than a certain ratio are assigned can be extracted from the reference scene database and provided to the automatic video generation device 200.
구체적으로, 참조 장면 추천부(340)는 참조 장면에 할당된 태그를 구성하는 문자 및 상기 토큰의 단어를 구성하는 문자를 비교하여, 일치하는 문자의 개수를 산출할 수 있다. 그리고, 태그에 해당하는 스트링 수 및 상기 토큰의 단어에 해당하는 스트링 수를 비교하여, 더 긴 스트링 수를 선택할 수 있다. 그리고 선택된 스트링 수 대비 상기 일치하는 문자의 개수의 비율을 나타내는 유사도 비율을 산출할 수 있다. 그리고, 상기 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 영상을 참조 영상 데이터베이스에서 추출하여 동영상 자동 생성 장치(200)로 제공할 수 있다. Specifically, the reference scene recommendation unit 340 may compare the characters constituting the tag assigned to the reference scene and the characters constituting the word of the token to calculate the number of matching characters. Also, by comparing the number of strings corresponding to the tag and the number of strings corresponding to the word of the token, a longer number of strings can be selected. Additionally, a similarity ratio representing the ratio of the number of matching characters to the number of selected strings can be calculated. Additionally, a reference image to which a tag with a similarity ratio greater than a certain rate is assigned can be extracted from the reference image database and provided to the automatic video generation device 200.
도 4 내지 7은 본 개시의 일 실시예에 따른 참조 장면 추천 장치의 동작을 설명하기 위한 도면들이다. 4 to 7 are diagrams for explaining the operation of a reference scene recommendation device according to an embodiment of the present disclosure.
도 4 내지 도 7을 참조하면, 참조 장면 추천 장치(300)는 영상 (410)을 수집할 수 있다. 수집된 영상(410)는 영상 분할부로 제공될 수 있다. 영상 분할부는 입력된 영상을 장면 단위로 분할하여 복수의 참조 장면(420_1~420_4)을 생성할 수 있다. 복수의 참조 장면은 태그 할당부로 입력될 수 있다. 태그 할당부는 각 참조 장면(420_1~420_4)에 태그를 할당할 수 있다. 태그가 할당된 참조 장면들(420_1~420_4)은 참조 장면 데이터베이스(430)에 저장될 수 있다. Referring to FIGS. 4 to 7 , the reference scene recommendation device 300 may collect an image 410. The collected image 410 may be provided to the image segmentation unit. The image division unit may divide the input image into scenes to create a plurality of reference scenes (420_1 to 420_4). A plurality of reference scenes may be input to the tag allocation unit. The tag allocation unit may assign tags to each reference scene (420_1 to 420_4). Reference scenes 420_1 to 420_4 to which tags are assigned may be stored in the reference scene database 430.
실시예에 따르면, 영상 분할부는 입력된 영상(410)을 디코딩하여 영상을 구성하는 프레임들을 획득한 다음, 재생 시간 간격으로 프레임을 샘플링할 수 있다. According to an embodiment, the image segmentation unit may decode the input image 410 to obtain frames constituting the image, and then sample the frames at playback time intervals.
이후, 영상 분할부는 샘플링된 프레임들 중 서로 인접한 프레임들 간의 유사도를 산출하고, 유사도에 근거하여 프레임들을 그룹핑함으로써, 장면 단위로 분할된 복수의 참조 장면을 생성할 수 있다.Thereafter, the image segmentation unit may calculate the similarity between adjacent frames among the sampled frames and group the frames based on the similarity, thereby generating a plurality of reference scenes divided on a scene basis.
또한, 태그 할당부는 복수의 참조 장면(420_1~420_4)을 분석하여 각 참조 장면의 특징 정보를 추출하고 추출된 특정 정보에 따라 서로 다른 종류의 태그를 각 참조 장면(420_1~420_1)에 할당할 수 있다. 예를 들면, 태그 할당부는 추출된 특징 정보에 따라, 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그 중 하나를 할당할 수 있다. In addition, the tag allocation unit can analyze a plurality of reference scenes (420_1 to 420_4) to extract characteristic information of each reference scene and assign different types of tags to each reference scene (420_1 to 420_1) according to the extracted specific information. there is. For example, the tag allocation unit may allocate one of an object attribute tag, a screen attribute tag, a situation attribute tag, and a highlight attribute tag, according to the extracted feature information.
오브젝트 속성 태그를 할당하기 위하여, 태그 할당부는 참조 장면에서 오브젝트의 특징 영역을 탐지하고, 탐지된 특징 영역에서 오브젝트의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 오브젝트 속성 태그를 할당할 수 있다. In order to assign an object attribute tag, the tag allocation unit may detect the feature area of the object in the reference scene and extract feature information of the object from the detected feature area. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And object attribute tags can be assigned to the reference scene according to the feature descriptor.
예를 들어, 태그 할당부는 도 6(a)에 도시된 바와 같이, 참조 장면(420_3)을 분석하여 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 그리고 도 6(b)에 도시된 바와 같이, 탐지된 특징 영역에서 오브젝트 및 오브젝트의 특징 정보를 추출할 수 있다. 이후, 태그 할당부는 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 추출할 수 있다. 그 다음, 태그 할당부는 도 6(c)d와 같이 오브젝트의 특징 정보에 따라 오브젝트 속성 태그를 참조 장면(420_3)에 할당할 수 있다. For example, as shown in FIG. 6(a), the tag allocator may analyze the reference scene 420_3 and detect the feature area of the object (Interest Point Detection). And as shown in FIG. 6(b), the object and its characteristic information can be extracted from the detected feature area. Afterwards, the tag allocation unit can extract the feature information of the object by expressing the feature information of the object as a vector value. Next, the tag allocation unit may allocate an object attribute tag to the reference scene 420_3 according to the characteristic information of the object, as shown in FIG. 6(c)d.
도 8은 본 개시의 일 실시예에 따른 동영상 자동 생성을 위한 참조 장면 추천 방법을 도시한 순서도이다.Figure 8 is a flow chart illustrating a reference scene recommendation method for automatic video generation according to an embodiment of the present disclosure.
도 8을 참조하면, 참조 장면 추천 장치(300)는 영상을 수집한 후 수집된 영상을 장면 단위로 분할하여 복수의 참조 장면을 생성할 수 있다(S810).Referring to FIG. 8, the reference scene recommendation device 300 may collect an image and then divide the collected image into scenes to generate a plurality of reference scenes (S810).
참조 장면 추천 장치(300)는 복수의 참조 장면을 분석하여 특징 정보를 추출한 후 이를 기초로 복수의 참조 장면에 서로 다른 종류의 태그를 각각 할당할 수 있다(S820).The reference scene recommendation device 300 may extract feature information by analyzing a plurality of reference scenes and then assign different types of tags to the plurality of reference scenes based on this (S820).
참조 장면 추천 장치(300)는 태그가 할당된 참조 장면을 참조 장면 데이터베이스에 저장할 수 있다(S830).The reference scene recommendation device 300 may store a reference scene to which a tag is assigned in a reference scene database (S830).
참조 장면 추천 장치(300)는 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하면, 수신한 참조 장면 추천 요청 메시지를 기초로 참조 장면 데이터베이스에서 참조 장면을 추출하여 동영상 자동 생성 장치(200)로 제공할 수 있다(S840).When the reference scene recommendation device 300 receives a reference scene recommendation request message from the automatic video generation device 200, the reference scene recommendation device 200 extracts a reference scene from the reference scene database based on the received reference scene recommendation request message. ) can be provided (S840).
일 실시예에 따르면, 상기 S840 단계는, 참조 장면 추천 장치(300)가 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하는 단계, 참조 장면 추천 요청 메시지에 포함되어 있는 키워드를 추출하는 단계, 키워드를 구성하고 있는 토큰들을 추출하는 단계, 참조 장면에 할당되어 있는 복수의 태그 중 토큰의 형태소 값과 매칭되는 태그를 선택하는 단계, 선택된 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하는 단계, 및 추출된 참조 장면을 동영상 자동 생성 장치(200)로 제공하는 단계를 포함할 수 있다.According to one embodiment, step S840 includes the reference scene recommendation device 300 receiving a reference scene recommendation request message from the automatic video generation device 200, and extracting keywords included in the reference scene recommendation request message. Step, extracting the tokens constituting the keyword, selecting a tag that matches the morpheme value of the token among a plurality of tags assigned to the reference scene, if the selected tag matches the word of the token, the corresponding tag is It may include extracting an assigned reference scene from a reference scene database, and providing the extracted reference scene to the automatic video generating device 200.
다른 실시예에 따르면, 상기 S840 단계는, 참조 장면 추천 장치(300)가 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하는 단계, 참조 장면 추천 요청 메시지에 포함되어 있는 키워드를 추출하는 단계, 키워드를 구성하고 있는 토큰들을 추출하는 단계, 참조 장면에 할당되어 있는 복수의 태그 중 토큰의 형태소 값과 매칭되지 않은 태그가 할당되어 있는 참조 영상을 대상으로, 상기 참조 영상에 할당되어 있는 복수의 태그 각각과 토크의 단어 간의 유사도 비율을 산출하는 단계, 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 장면을 참조 장면 데이터베이스에서 추출하는 단계, 및 추출된 참조 장면을 동영상 자동 생성 장치(200)로 제공하는 단계를 포함할 수 있다.According to another embodiment, the step S840 includes the reference scene recommendation device 300 receiving a reference scene recommendation request message from the automatic video generation device 200, and extracting keywords included in the reference scene recommendation request message. Step, extracting tokens constituting a keyword, targeting a reference image to which a tag that does not match the morpheme value of the token among a plurality of tags assigned to the reference scene is assigned, a plurality of tags assigned to the reference image A step of calculating a similarity ratio between each tag and a word in the talk, extracting a reference scene assigned to a tag with a similarity ratio of a certain ratio or more from the reference scene database, and converting the extracted reference scene to the automatic video generation device 200. It may include providing steps.
좀 더 구체적으로, 상기 유사도 비율을 산출하는 단계는 참조 장면에 할당된 태그를 구성하는 문자 및 상기 토큰의 단어를 구성하는 문자를 비교하여, 일치하는 문자의 개수를 산출하는 단계, 태그에 해당하는 스트링 수 및 상기 토큰의 단어에 해당하는 스트링 수를 비교하여, 더 킨 스트링 수를 선택하는 단계, 선택된 스트링 수 대비 상기 일치하는 문자의 개수의 비율을 나타내는 유사도 비율을 산출하는 단계, 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 장면을 참조 장면 데이터베이스에서 추출하는 단계, 및 추출된 참조 장면을 동영상 자동 생성 장치(200)로 제공하는 단계를 포함할 수 있다.More specifically, calculating the similarity ratio includes calculating the number of matching characters by comparing the characters constituting the tag assigned to the reference scene and the characters constituting the word of the token, and calculating the number of matching characters. Comparing the number of strings and the number of strings corresponding to the word of the token, selecting a greater number of strings, calculating a similarity ratio indicating the ratio of the number of matching characters to the number of selected strings, the similarity ratio is specified It may include extracting a reference scene to which a tag greater than or equal to the ratio is assigned from a reference scene database, and providing the extracted reference scene to the automatic video generating device 200 .
이상, 도 1 내지 도 8을 참조하여 본 개시의 일 실시예에 따른, 동영상 자동 생성을 위한 참조 장면 추천 방법 및 참조 장면 추천 장치에 대해서 설명하였다. Above, with reference to FIGS. 1 to 8 , a reference scene recommendation method and a reference scene recommendation device for automatically generating a video according to an embodiment of the present disclosure have been described.
본 개시의 일 실시예에 따르면, 참조 장면 추천 장치(300)의 다양한 동작들을 위한 프로그램은 참조 장면 추천 장치(300)의 메모리에 저장될 수 있다. 참조 장면 추천 장치(300)의 프로세서는 메모리에 저장된 프로그램을 로딩하여 실행할 수 있다. 프로세서는 하드웨어나 소프트웨어 또는 이들의 조합에 따라 AP(Application Processor), CPU(Central Processing Unit), MCU(Microcontroller Unit)나 이와 유사한 장치로 구현될 수 있다. 이때, 하드웨어적으로는 전기적 신호를 처리하여 제어 기능을 수행하는 전자 회로 형태로 제공될 수 있으며, 소프트웨어적으로는 하드웨어적 회로를 구동시키는 프로그램이나 코드 형태로 제공될 수 있다. According to an embodiment of the present disclosure, programs for various operations of the reference scene recommendation device 300 may be stored in the memory of the reference scene recommendation device 300. The processor of the reference scene recommendation device 300 may load and execute a program stored in the memory. The processor may be implemented as an application processor (AP), central processing unit (CPU), microcontroller unit (MCU), or similar devices, depending on hardware, software, or a combination thereof. At this time, hardware may be provided in the form of an electronic circuit that processes electrical signals to perform a control function, and software may be provided in the form of a program or code that drives the hardware circuit.
한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다. Meanwhile, the disclosed embodiments may be implemented in the form of a recording medium that stores instructions executable by a computer. Instructions may be stored in the form of program code, and when executed by a processor, may create program modules to perform operations of the disclosed embodiments. The recording medium may be implemented as a computer-readable recording medium.
컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록매체를 포함한다. 예를 들어, ROM(read only memory), RAM(random access memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다. Computer-readable recording media include all types of recording media storing instructions that can be decoded by a computer. For example, there may be read only memory (ROM), random access memory (RAM), magnetic tape, magnetic disk, flash memory, optical data storage, etc.
또한, 컴퓨터가 읽을 수 있는 기록매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다. Additionally, computer-readable recording media may be provided in the form of non-transitory storage media. Here, 'non-transitory storage medium' only means that it is a tangible device and does not contain signals (e.g. electromagnetic waves). This term refers to cases where data is semi-permanently stored in a storage medium and temporary storage media. It does not distinguish between cases where it is stored as . For example, a 'non-transitory storage medium' may include a buffer where data is temporarily stored.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 기록 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트폰들) 간에 직접 배포되거나, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 기록 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다. According to one embodiment, methods according to various embodiments disclosed in this document may be included and provided in a computer program product. Computer program products are commodities and can be traded between sellers and buyers. The computer program product may be distributed in the form of a machine-readable recording medium (e.g. compact disc read only memory (CD-ROM)) or via an application store (e.g. Play StoreTM) or on two user devices (e.g. It can be distributed directly between smartphones (e.g. smartphones) or distributed online (e.g. downloaded or uploaded). In the case of online distribution, at least a portion of a computer program product (e.g., a downloadable app) is stored at least temporarily on a machine-readable recording medium, such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be stored or created temporarily.
이상에서 실시 형태들에 설명된 특징, 구조, 효과 등은 본 개시의 적어도 하나의 실시 형태에 포함되며, 반드시 하나의 실시 형태에만 한정되는 것은 아니다. 나아가, 각 실시 형태에서 예시된 특징, 구조, 효과 등은 실시 형태들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시 형태들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 개시의 범위에 포함되는 것으로 해석되어야 할 것이다.The features, structures, effects, etc. described in the embodiments above are included in at least one embodiment of the present disclosure and are not necessarily limited to only one embodiment. Furthermore, the features, structures, effects, etc. illustrated in each embodiment can be combined or modified and implemented in other embodiments by a person with ordinary knowledge in the field to which the embodiments belong. Accordingly, contents related to such combinations and modifications should be construed as being included in the scope of the present disclosure.
또한, 이상에서 실시 형태를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 개시를 한정하는 것이 아니며, 본 개시가 속하는 분야의 통상의 지식을 가진 자라면 본 실시 형태의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 즉, 실시 형태에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 개시의 범위에 포함되는 것으로 해석되어야 할 것이다.In addition, although the above description focuses on the embodiment, this is only an example and does not limit the present disclosure, and those skilled in the art will be able to understand the above without departing from the essential characteristics of the present embodiment. You will see that various modifications and applications not illustrated are possible. In other words, each component specifically shown in the embodiment can be modified and implemented. And these variations and differences related to application should be construed as being included in the scope of the present disclosure as defined in the attached claims.
상술한 바와 같은 참조 장면 추천 방법 및 참조 장면 추천 장치는 영상 제작 분야에 적용될 수 있다. The reference scene recommendation method and reference scene recommendation device described above can be applied to the video production field.

Claims (8)

  1. 참조 장면 추천 장치에서 실행되는 동영상 자동 생성을 위한 참조 장면 추천 방법에 있어서,In the reference scene recommendation method for automatically generating a video executed on a reference scene recommendation device,
    수집된 영상을 장면 단위로 분할하여 복수의 참조 장면을 생성하는 단계;Generating a plurality of reference scenes by dividing the collected images into scenes;
    상기 복수의 참조 장면을 분석하여 특징 정보를 추출한 후 이를 기초로 상기 복수의 참조 장면에 서로 다른 종류의 태그를 각각 할당하는 단계; 및extracting feature information by analyzing the plurality of reference scenes and then assigning different types of tags to the plurality of reference scenes based on this; and
    상기 태그가 할당된 복수의 참조 장면을 참조 장면 데이터베이스에 저장하는 단계를 포함하되, Including storing a plurality of reference scenes to which the tags are assigned in a reference scene database,
    상기 복수의 참조 장면에 서로 다른 종류의 태그를 각각 할당하는 단계는, The step of assigning different types of tags to each of the plurality of reference scenes includes:
    상기 참조 장면에 포함된 오브젝트의 특징 정보를 추출하고, 상기 오브젝트의 특징 정보를 벡터값으로 포현한 특징 기술자를 추출하고, 상기 특징 기술자에 따라 상기 참조 장면에 오브젝트 속성 태그를 할당하는 단계; Extracting feature information of an object included in the reference scene, extracting a feature descriptor expressing the feature information of the object as a vector value, and assigning an object attribute tag to the reference scene according to the feature descriptor;
    상기 참조 장면을 장면 종류 분석 모델에 적용하여 상기 참조 장면에서 표현되고 있는 상황의 종류를 추출하고, 상기 상황의 종류에 따라 상기 참조 장면에 상황 속성 태그를 할당하는 단계; 및 applying the reference scene to a scene type analysis model to extract the type of situation expressed in the reference scene, and assigning a situation attribute tag to the reference scene according to the type of situation; and
    상기 수집된 영상에서 하이라이트 부분을 추출하고, 상기 참조 장면 데이터베이스에 저장된 복수의 참조 장면 중 상기 하이라이트 부분에 해당하는 참조 장면에 하이라이트 속성 태그를 할당하는 단계를 포함하는, Comprising the step of extracting a highlight portion from the collected video and assigning a highlight attribute tag to a reference scene corresponding to the highlight portion among a plurality of reference scenes stored in the reference scene database.
    참조 장면 추천 방법.How to recommend reference scenes.
  2. 제1항에 있어서,According to paragraph 1,
    서로 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 장면 추천 요청 메시지를 동영상 자동 생성 장치로부터 수신하는 단계;Receiving a reference scene recommendation request message including keywords composed of tokens with different weights from an automatic video generating device;
    상기 참조 장면 데이터의 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그가 할당된 참조 장면을 추출하는 단계; 및extracting a reference scene to which a tag matching a morpheme value of the token is assigned from among a plurality of tags of the reference scene data; and
    상기 추출된 참조 장면의 태그와 상기 토큰의 단어가 일치하면, 상기 추출된 참조 장면을 상기 동영상 자동 생성 장치로 제공하는 단계를 더 포함하는, If the tag of the extracted reference scene matches the word of the token, further comprising providing the extracted reference scene to the automatic video generating device,
    참조 장면 추천 방법.How to recommend reference scenes.
  3. 제1항에 있어서,According to paragraph 1,
    상기 서로 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 장면 추천 요청 메시지를 동영상 자동 생성 장치로부터 수신하는 단계;Receiving a reference scene recommendation request message including keywords composed of tokens to which different weights are assigned from an automatic video generating device;
    상기 참조 장면 데이터의 복수의 태그 중 상기 토큰의 형태소 값과 매칭되지 않은 태그가 할당된 참조 장면을 추출하는 단계;extracting a reference scene to which a tag that does not match the morpheme value of the token is assigned among the plurality of tags of the reference scene data;
    상기 추출된 참조 장면에 할당되어 있는 복수의 태그 각각과 상기 토큰의 단어 간의 유사도 비율을 산출하는 단계; 및calculating a similarity ratio between each of a plurality of tags assigned to the extracted reference scene and the word of the token; and
    상기 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 장면을 상기 동영상 자동 생성 장치로 제공하는 단계를 더 포함하는, Further comprising providing a reference scene to which a tag having a similarity ratio of a certain ratio or more is assigned to the automatic video generating device,
    참조 장면 추천 방법.How to recommend reference scenes.
  4. 제3항에 있어서,According to paragraph 3,
    상기 유사도 비율을 산출하는 단계는, The step of calculating the similarity ratio is,
    상기 추출된 참조 장면에 할당되어 있는 복수의 태그를 구성하는 문자 및 상기 토큰의 단어를 구성하는 문자를 비교하여, 일치하는 문자의 개수를 산출하는 단계;Comparing letters constituting a plurality of tags assigned to the extracted reference scene and letters constituting a word of the token to calculate the number of matching letters;
    상기 복수의 태그에 해당하는 스트링 수 및 상기 토큰의 단어에 해당하는 스트링 수를 비교하여, 더 긴 스트링수를 선택하는 단계; 및 Comparing the number of strings corresponding to the plurality of tags and the number of strings corresponding to words of the token, and selecting a longer number of strings; and
    상기 선택된 스트링 수 대비 상기 일치하는 문자의 개수의 비율을 나타내는 상기 유사도 비율을 산출하는 단계를 포함하는, Comprising the step of calculating the similarity ratio, which represents the ratio of the number of matching characters to the number of selected strings,
    참조 장면 추천 방법.How to recommend reference scenes.
  5. 참조 장면 추천 장치에 있어서,In the reference scene recommendation device,
    하나 이상의 프로세서; 및 One or more processors; and
    상기 하나 이상의 프로세서로 하여금 동작들(Operations)을 실행하도록 구성된 명령어들(instructions)을 포함하는 메모리;를 포함하되, A memory containing instructions configured to cause the one or more processors to execute operations.
    상기 동작들은, The above operations are:
    수집된 영상을 장면 단위로 분할하여 복수의 참조 장면을 생성하는 것;Creating a plurality of reference scenes by dividing the collected images into scene units;
    상기 복수의 참조 장면을 분석하여 특징 정보를 추출한 후 이를 기초로 상기 복수의 참조 장면에 서로 다른 종류의 태그를 각각 할당하는 것; 및analyzing the plurality of reference scenes to extract feature information and assigning different types of tags to the plurality of reference scenes based on this; and
    상기 태그가 할당된 복수의 참조 장면을 참조 장면 데이터베이스에 저장하는 것을 포함하되, Including storing a plurality of reference scenes to which the tags are assigned in a reference scene database,
    상기 복수의 참조 장면에 서로 다른 종류의 태그를 각각 할당하는 것은, Assigning different types of tags to the plurality of reference scenes,
    상기 참조 장면에 포함된 오브젝트의 특징 정보를 추출하고, 상기 오브젝트의 특징 정보를 벡터값으로 포현한 특징 기술자를 추출하고, 상기 특징 기술자에 따라 상기 참조 장면에 오브젝트 속성 태그를 할당하는 것; extracting feature information of an object included in the reference scene, extracting a feature descriptor expressing the feature information of the object as a vector value, and assigning an object attribute tag to the reference scene according to the feature descriptor;
    상기 참조 장면을 장면 종류 분석 모델에 적용하여 상기 참조 장면에서 표현되고 있는 상황의 종류를 추출하고, 상기 상황의 종류에 따라 상기 참조 장면에 상황 속성 태그를 할당하는 것; 및 applying the reference scene to a scene type analysis model to extract the type of situation expressed in the reference scene, and assigning a situation attribute tag to the reference scene according to the type of situation; and
    상기 수집된 영상에서 하이라이트 부분을 추출하고, 상기 참조 장면 데이터베이스에 저장된 복수의 참조 장면 중 상기 하이라이트 부분에 해당하는 참조 장면에 하이라이트 속성 태그를 할당하는 것을 포함하는, Including extracting a highlight portion from the collected video and assigning a highlight attribute tag to a reference scene corresponding to the highlight portion among a plurality of reference scenes stored in the reference scene database.
    참조 장면 추천 장치.Reference scene recommendation device.
  6. 제5항에 있어서,According to clause 5,
    상기 동작은, The operation is,
    서로 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 장면 추천 요청 메시지를 동영상 자동 생성 장치로부터 수신하는 것, Receiving a reference scene recommendation request message from the automatic video creation device containing keywords consisting of tokens with different weights;
    상기 참조 장면 데이터의 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그가 할당된 참조 장면을 추출하는 것, Extracting a reference scene to which a tag matching the morpheme value of the token is assigned among a plurality of tags of the reference scene data,
    상기 추출된 참조 장면의 태그와 상기 토큰의 단어가 일치하면, 상기 추출된 참조 장면을 상기 동영상 자동 생성 장치로 제공하는 것을 더 포함하는, If the tag of the extracted reference scene matches the word of the token, further comprising providing the extracted reference scene to the automatic video generating device,
    참조 장면 추천 장치.Reference scene recommendation device.
  7. 제6항에 있어서,According to clause 6,
    상기 동작은, The operation is,
    상기 서로 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 장면 추천 요청 메시지를 동영상 자동 생성 장치로부터 수신하는 것, Receiving a reference scene recommendation request message including keywords composed of the tokens with different weights from the automatic video generating device,
    상기 참조 장면 데이터의 복수의 태그 중 상기 토큰의 형태소 값과 매칭되지 않은 태그가 할당된 참조 장면을 추출하는 것, Extracting a reference scene assigned a tag that does not match the morpheme value of the token from among the plurality of tags in the reference scene data,
    상기 추출된 참조 장면에 할당되어 있는 복수의 태그 각각과 상기 토큰의 단어 간의 유사도 비율을 산출하는 것, Calculating a similarity ratio between each of a plurality of tags assigned to the extracted reference scene and the word of the token,
    상기 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 장면을 상기 동영상 자동 생성 장치로 제공하는 것을 더 포함하는, Further comprising providing, to the automatic video generating device, a reference scene to which a tag whose similarity rate is greater than or equal to a certain rate is assigned.
    참조 장면 추천 장치.Reference scene recommendation device.
  8. 제7항에 있어서,In clause 7,
    상기 유사도 비율을 산출하는 것은, To calculate the similarity ratio,
    상기 추출된 참조 장면에 할당되어 있는 복수의 태그를 구성하는 문자 및 상기 토큰의 단어를 구성하는 문자를 비교하여, 일치하는 문자의 개수를 산출하는 것, Comparing letters constituting a plurality of tags assigned to the extracted reference scene and letters constituting a word of the token to calculate the number of matching letters;
    상기 복수의 태그에 해당하는 스트링 수 및 상기 토큰의 단어에 해당하는 스트링 수를 비교하여 더 긴 스트링수를 선택하는 것, 및 Comparing the number of strings corresponding to the plurality of tags and the number of strings corresponding to words of the token and selecting a longer number of strings, and
    상기 선택된 스트링 수 대비 상기 일치하는 문자의 개수의 비율을 나타내는 상기 유사도 비율을 산출하는 것을 포함하는, Including calculating the similarity ratio, which represents the ratio of the number of matching characters to the number of selected strings,
    참조 장면 추천 장치. Reference scene recommendation device.
PCT/KR2023/016939 2022-10-27 2023-10-27 Reference scene recommendation method and reference scene recommendation device for automatic video generation WO2024091084A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220140180A KR102560610B1 (en) 2022-10-27 2022-10-27 Reference video data recommend method for video creation and apparatus performing thereof
KR10-2022-0140180 2022-10-27

Publications (1)

Publication Number Publication Date
WO2024091084A1 true WO2024091084A1 (en) 2024-05-02

Family

ID=87433164

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/016939 WO2024091084A1 (en) 2022-10-27 2023-10-27 Reference scene recommendation method and reference scene recommendation device for automatic video generation

Country Status (2)

Country Link
KR (1) KR102560610B1 (en)
WO (1) WO2024091084A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102560610B1 (en) * 2022-10-27 2023-07-27 주식회사 일만백만 Reference video data recommend method for video creation and apparatus performing thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110070386A (en) * 2009-12-18 2011-06-24 주식회사 케이티 The system and method for automatically making image ars
KR20130032653A (en) * 2011-09-23 2013-04-02 브로드밴드미디어주식회사 System and method for serching images using caption of moving picture in keyword
KR20160087222A (en) * 2015-01-13 2016-07-21 삼성전자주식회사 Method and Appratus For Creating Photo Story based on Visual Context Analysis of Digital Contents
KR20200120493A (en) * 2019-04-11 2020-10-21 주식회사 인덴트코퍼레이션 Method and system for providing system linked shopping mall based review management service using ai chatbot
KR20220134084A (en) * 2021-03-26 2022-10-05 이광호 System for providing personalized video contents
KR102560610B1 (en) * 2022-10-27 2023-07-27 주식회사 일만백만 Reference video data recommend method for video creation and apparatus performing thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110070386A (en) * 2009-12-18 2011-06-24 주식회사 케이티 The system and method for automatically making image ars
KR20130032653A (en) * 2011-09-23 2013-04-02 브로드밴드미디어주식회사 System and method for serching images using caption of moving picture in keyword
KR20160087222A (en) * 2015-01-13 2016-07-21 삼성전자주식회사 Method and Appratus For Creating Photo Story based on Visual Context Analysis of Digital Contents
KR20200120493A (en) * 2019-04-11 2020-10-21 주식회사 인덴트코퍼레이션 Method and system for providing system linked shopping mall based review management service using ai chatbot
KR20220134084A (en) * 2021-03-26 2022-10-05 이광호 System for providing personalized video contents
KR102560610B1 (en) * 2022-10-27 2023-07-27 주식회사 일만백만 Reference video data recommend method for video creation and apparatus performing thereof

Also Published As

Publication number Publication date
KR102560610B1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
WO2024091080A1 (en) Automatic video generation method and automatic video generation server
WO2016013914A1 (en) Method, apparatus, system and computer program for providing and displaying product information
WO2024091084A1 (en) Reference scene recommendation method and reference scene recommendation device for automatic video generation
WO2018135881A1 (en) Vision intelligence management for electronic devices
WO2018174637A1 (en) Real time shopping method using video recognition in broadcast, and smart device in which application for implementing same is installed
US20210406549A1 (en) Method and apparatus for detecting information insertion region, electronic device, and storage medium
WO2010119996A1 (en) Method and apparatus for providing moving image advertisements
WO2018097379A1 (en) Method for inserting hash tag by image recognition, and software distribution server storing software for performing same method
CN108509611B (en) Method and device for pushing information
CN109474847A (en) Searching method, device, equipment and storage medium based on video barrage content
WO2016035970A1 (en) Advertisement system using search advertisement
US10257563B2 (en) Automatic generation of network pages from extracted media content
WO2020251174A1 (en) Method for advertising user-customized fashion item and server executing same
CN111314732A (en) Method for determining video label, server and storage medium
EP3942510A1 (en) Method and system for providing personalized multimodal objects in real time
CN104102683A (en) Contextual queries for augmenting video display
WO2015020256A1 (en) System and method for detecting and classifying direct response advertising
WO2012118259A1 (en) System and method for providing an image-based video-related service
WO2022145946A1 (en) System and method for learning language based on artificial intelligence-recommended training images and illustrative sentences
Jin et al. Network video summarization based on key frame extraction via superpixel segmentation
WO2024091085A1 (en) Reference scene generation method and reference scene generation device, which are based on image
WO2014178498A1 (en) Method for producing advertisement image and production system therefor, and system for producing movie file comprising advertisement image and method for providing movie file
WO2024107000A1 (en) Method and server for generating customized review image by using feedback data
WO2024106993A1 (en) Commerce video generation method and server using review data
WO2024019226A1 (en) Method for detecting malicious urls

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23883188

Country of ref document: EP

Kind code of ref document: A1