WO2024107000A1 - 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법 및 서버 - Google Patents
피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법 및 서버 Download PDFInfo
- Publication number
- WO2024107000A1 WO2024107000A1 PCT/KR2023/018536 KR2023018536W WO2024107000A1 WO 2024107000 A1 WO2024107000 A1 WO 2024107000A1 KR 2023018536 W KR2023018536 W KR 2023018536W WO 2024107000 A1 WO2024107000 A1 WO 2024107000A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- token
- feedback data
- script
- tag
- Prior art date
Links
- 238000012552 review Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title abstract description 26
- 230000006399 behavior Effects 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 8
- 230000000877 morphologic effect Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 description 22
- 230000008859 change Effects 0.000 description 21
- 238000010276 construction Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 230000007613 environmental effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 208000025721 COVID-19 Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/458—Scheduling content for creating a personalised stream, e.g. by combining a locally stored advertisement with an incoming stream; Updating operations, e.g. for OS modules ; time-related management operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44222—Analytics of user selections, e.g. selection of programs or purchase activity
- H04N21/44224—Monitoring of user activity on external systems, e.g. Internet browsing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4758—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for providing answers, e.g. voting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/47815—Electronic shopping
Definitions
- This disclosure relates to a method and server for generating a user-customized review video using feedback data. More specifically, it relates to a user-customized review video generation method and server that can generate and provide a user-customized review video using user feedback data about products of user interest.
- Online shopping refers to the transaction of products and services using electronic information between companies, between companies and consumers, or between consumers and consumers, based on the Internet. It is also called internet shopping, web shopping, untact shopping, internet sales, untact sales, e-commerce, and web commerce.
- Examples of types of online shopping include online markets, TV home shopping, and live commerce. It is a compound word of live streaming and e-commerce, and refers to an online channel that introduces and sells products through real-time video streaming through platforms such as the web and applications.
- live commerce can be defined as a combination of online shopping and broadcasting. Live commerce is similar to TV home shopping in that a show host explains and sells products on site in real time like a live broadcast, but the feature is that anyone can easily open a channel and broadcast without limits on capacity or participation on a mobile rather than a TV channel. There is. Additionally, live commerce differs from TV home shopping in that it allows real-time communication between sellers and buyers during the process of selling products.
- live commerce has the advantage of lower commissions allocated to the platform and lower barriers to entry compared to TV home shopping. Thanks to these advantages, the domestic (Korea) live commerce market is growing rapidly, and the size of the live commerce market is expected to grow further in the future.
- live commerce makes it difficult for sellers to secure sufficient data or forecast information that can be used for decision-making when managing inventory. Therefore, in live commerce, the seller’s experience becomes the main basis for decision-making.
- this decision-making model does not have high accuracy, there is a possibility that inventory management may fail. Failure to manage inventory can cause active or passive damage to sellers, which can lead to the departure of sellers and the growth of the live commerce market due to seller withdrawal.
- live commerce has the disadvantage of increased costs due to celebrities' high appearance fees and the inability to reuse content.
- other user-customized review videos also have the disadvantage of being expensive to create.
- the problem that the present disclosure aims to solve is to provide a user-customized review video generation method and server that can generate a user-customized review video using user feedback data about products of user interest.
- a method of generating a user-customized review image using feedback data determines a product of interest to the user based on the user's behavior information as the user's behavior information on a web page is received, and the product of the user's interest is determined.
- collecting user feedback data about Generating reference scenes by analyzing the collected feedback data according to type; Assigning one or more tags to each of the reference scenes according to feature information extracted from each of the reference scenes, wherein the one or more tags include an object attribute tag, a screen attribute tag, a situation attribute tag, and a highlight attribute tag.
- Generating the reference scenes includes obtaining frames by decoding video data among the collected feedback data, and sampling the frames at playback time intervals; and generating the reference images by grouping the sampled frames into scenes.
- the script database stores one or more attributes related to a keyword and text matching each attribute, wherein the one or more attributes include object attributes of an object corresponding to the keyword, screen attributes of a scene matching the object, and text matching the object. It includes situational properties of the scene and highlight properties of the scene matching the object, and the step of generating the script includes analyzing text data among the collected feedback data into keywords in word units; Referring to the script database, determining one or more attributes corresponding to the analyzed keywords; And it may include generating the script using text matching the one or more determined properties.
- Extracting the reference image includes extracting words from the text of the script based on spaces; Measuring frequency values of the extracted words based on a pre-generated database of frequency values for each word; Generating a token by performing morphological analysis on the extracted words - the token includes a pair of a word and a morpheme value, and is assigned a label indicating a frequency value of the word -; assigning different weights to the words of each token according to the word of each token and the label of each token; extracting a word from a token whose weight is equal to or greater than a standard value as the keyword; selecting a specific tag from one or more tags assigned to each of the reference images based on the morpheme value of the token constituting the keyword; calculating a similarity score between the selected tag and tokens constituting the keyword; And it may include extracting a reference scene from among the reference images to which a tag having the similarity score of a specific score or higher is assigned.
- a user-customized review image generation server using feedback data includes one or more processors; and a memory containing instructions configured to cause the one or more processors to execute operations, wherein the operations include: the user's behavior as the user's behavior information on the web page is received; determining a product of user interest based on information and collecting user feedback data regarding the product of user interest; generating reference scenes by analyzing the collected feedback data according to type; Assigning one or more tags to each of the reference scenes according to feature information extracted from each of the reference scenes - the one or more tags include an object attribute tag, a screen attribute tag, a situation attribute tag, and a highlight attribute tag - ; generating a script for the product of user interest based on feedback data for the product of user interest and a pre-generated script database; extracting a reference image from among the reference images to which a tag matching a keyword extracted from the script is assigned; and generating a user-customized review image using the extracted reference image.
- Generating the reference scenes includes obtaining frames by decoding video data among the collected feedback data and sampling the frames at playback time intervals; and generating the reference images by grouping the sampled frames into scenes.
- the script database stores one or more attributes related to a keyword and text matching each attribute, wherein the one or more attributes include object attributes of an object corresponding to the keyword, screen attributes of a scene matching the object, and text matching the object. It includes situational properties of the scene and highlight properties of the scene matching the object, and generating the script includes analyzing text data among the collected feedback data into keywords in word units; Referring to the script database, determining one or more attributes corresponding to the analyzed keywords; and generating the script using text matching the determined one or more attributes.
- Extracting the reference image includes extracting words from the text of the script based on spaces; measuring frequency values of the extracted words based on a pre-generated database of frequency values for each word; Generating a token by performing morphological analysis on the extracted words - the token includes a pair of a word and a morpheme value, and is assigned a label indicating the frequency value of the word -; assigning different weights to the words in each token, according to the words in each token and the label of each token; extracting a word from a token whose weight is equal to or greater than a standard value as the keyword; selecting a specific tag from one or more tags assigned to each of the reference images based on the morpheme value of the token constituting the keyword; calculating a similarity score between the selected tag and tokens constituting the keyword; and extracting a reference scene from among the reference images to which a tag having a similarity score equal to or higher than a specific score is assigned.
- a user-customized review video can be generated and provided using the user's feedback data on products of user interest.
- FIG. 1 is a diagram illustrating a system for generating a user-customized review image using feedback data according to an embodiment of the present disclosure.
- FIG. 2 is a diagram illustrating an image generating device of a user-customized review image generation server according to an embodiment of the present disclosure.
- FIG. 3 is a diagram illustrating a reference image providing device of a user-customized review image generation server according to an embodiment of the present disclosure.
- Figure 4 is a flowchart illustrating a method for generating a user-customized review image using feedback data according to an embodiment of the present disclosure.
- Figure 5 is a flow chart illustrating a method of building a reference image database according to an embodiment of the present disclosure.
- FIGS. 1 to 5 a method and server for generating a customized review image using feedback data according to an exemplary embodiment of the present disclosure will be described with reference to FIGS. 1 to 5.
- FIG. 1 is a diagram illustrating a system for generating a user-customized review image using feedback data according to an embodiment of the present disclosure.
- a user-customized review video generation system using feedback data includes a user-customized review video creation server 100, one or more online market servers 400, and one or more user terminals 500.
- the online market server 400 is a server operated by a seller who sells products through a web page.
- the web page may include one or more of a main page, a product detail page, a shopping cart page, and a user information page.
- Web pages can contain images, text, and buttons for user input. Examples of buttons for user input include an add to cart button, a product of interest registration button, and/or a payment button, but are not necessarily limited to the examples.
- the online market server 400 may provide the seller's web page to the user terminal 500.
- the online market server 400 transfers the user behavior information provided to the user customized review video generation server 100. can be provided.
- the online market server 400 provides the user's behavior information related to this. can be provided from the user terminal 500, and the provided user behavior information can be provided to the user-customized review video generation server 100.
- the online market server 400 can be provided from the user terminal 500, and the provided user behavior information can be provided to the user customized review video generation server 100.
- the user terminal 500 is a terminal owned by a user.
- Examples of the user terminal 500 include desktops, smartphones, and tablet PCs, but are not limited to the examples, and any electronic device capable of displaying a web page, requesting a search, and/or displaying a commerce video may be used as a user terminal (500). ) can be included.
- the user terminal 50 may include an online market application for accessing the online market server 400. Therefore, when the online market application is executed according to the user's command, the user terminal 500 can access the online market server 400 through the online market application.
- the user terminal 500 may display a web page provided by the online market server 400 through an online market application.
- a web page may include a screen loaded on an electronic device and/or content within the screen so that it can be immediately displayed on the screen according to a user's scroll input.
- the entire application execution screen that extends horizontally or vertically and is displayed as the user scrolls may be included in the concept of a web page.
- the camera roll screen can also be included in the concept of a web page.
- the user terminal 500 may store log records and/or engagement records.
- the user terminal 500 may extract content by analyzing stored log records and/or engagement records, and determine a label indicating the type of extracted content from among pre-stored labels.
- Log records may be created by recording events that occur while the operating system or software of the user terminal 500 is running.
- Engagement records can be created by recording a set of committed actions that result in a user becoming interested, participating, and engaging.
- Engagement records include user behavior information such as the user viewing content through a web browser, the user creating a ‘like’ tag on content through a social network, and the user viewing images of products registered on a web page.
- user behavior information such as the user viewing content through a web browser, the user creating a ‘like’ tag on content through a social network, and the user viewing images of products registered on a web page.
- actions such as clicking, registering a product registered on a web page as a product of interest, selecting an option for a product registered on a web page and adding it to the shopping cart, the object of such action, the time at which such action occurred, It may also include the time the behavior was maintained.
- user behavior information may refer to log records and/or engagement records themselves, or may refer to some information extracted from log records and/or engagement records.
- user's behavior information is collected from the online market server (400) and/or the commerce video creation server (100) whenever the user's action occurs on the displayed web page, on a certain time basis, or when the user's command is entered. ) can also be transmitted.
- Pre-stored labels may include labels indicating the meaning of content based on user behavior information. Examples include a label indicating whether it is preferred content (or a label indicating whether it is a product of user interest) and a label indicating whether it is non-preferred content (or a label indicating that it is not a product of user interest). According to another embodiment, the pre-stored labels may include labels indicating the type of user's behavior with respect to the content. Examples include a label indicating content viewed by the user, a label indicating content clicked by the user, and a label indicating content for which the user created a like tag.
- the user-customized review video generation server 100 may generate a script for the product based on feedback data for the product registered on the web page and a pre-generated script database.
- products registered on a web page can be understood to include not only the item being sold but also advertisements related to the item.
- Feedback data for a product may include video data, image data, and/or text data for the product.
- the script database can store one or more attributes related to keywords and text matching each attribute. Examples of one or more properties related to a keyword include object properties of the object corresponding to the keyword, screen properties of the scene matching the object, situation properties of the scene matching the object, and highlight properties of the scene matching the object.
- the user-customized review video generation server 100 may analyze text data among feedback data for products registered on a web page into keywords in word units. Next, the user-customized review video generation server 100 may generate a script using text that matches the attribute determined based on the user's behavior information among one or more attributes related to the keyword stored in the script database.
- the user-customized review video generation server 100 may extract words from the text of the script based on spaces. And, based on a database of frequency values for each word created in advance, the frequency values of the extracted words can be measured.
- a token may include a pair of words and morpheme values, and may be assigned a label indicating a frequency value.
- the user-customized review video generation server 100 has (frequency value: 1000, (word, morpheme value)), (frequency value: 234, (word, morpheme value)), (frequency value: 2541, (word) , morpheme value)), (frequency value: 2516, (word, morpheme value)) can be created.
- the user-customized review video generation server 100 may assign different weights to each token according to the word and/or label of each token.
- the user-customized review video generation server 100 is configured to determine the type of language implementing the word of the token (e.g., English, Chinese, Korean, etc.), the position of the word within the text of the script, and/or the token. Depending on the frequency value indicated by the assigned label, different weights can be assigned to each token.
- assigning different weights to each token is as follows.
- the user-customized review video generation server 100 may calculate the first weight using the total number of tokens generated from the text of the script and the order of each token.
- the user-customized review video generation server 100 determines the current token based on a value that quantifies the order of the current token based on the total number of tokens generated from the text of the script and an important value predetermined according to the type of language.
- the first weight for can be calculated. For example, if the total number of tokens is 12 and the order of the token is 4, 12 can be assumed to be 1, and 1 can be divided by 4 to calculate '0.25'. And the first weight can be calculated by reflecting the important value predetermined according to the type of language in the value calculated in this way. According to an embodiment, the significant value may change depending on the order of the current token.
- the important value reflected may also increase as the order of the current token increases. If the important word is a language that appears at the beginning of the sentence, the important value reflected will decrease as the order of the current token increases.
- the user-customized review video generation server 100 uses the frequency value indicated by the label of the current token, the frequency value indicated by the label of the previous token, and the frequency value indicated by the label of the next token to provide a suggestion for the current token. 2 Weights can be calculated.
- the user-customized review video generation server 100 may assign a final weight to the current token using the first weight and the second weight. And keywords consisting of tokens whose final weight is greater than or equal to the standard value can be extracted.
- the user-customized review image generation server 100 may extract a reference image from a pre-built reference image database based on the extracted keyword.
- One or more tags may be assigned to reference images in the reference image database, and the user-customized review image creation server 100 extracts reference scenes from the reference scene database using the extracted keywords and tags of the reference images. You can.
- the user-customized review video generation server 100 may calculate a similarity score between the extracted keyword and the tag assigned to the reference scene.
- the similarity score is a score expressing the degree to which the extracted keyword matches the tag assigned to the reference scene.
- the user-customized review video generation server 100 selects a tag that matches the morpheme value of the token constituting the keyword from among the plurality of tags assigned to the reference scene, and selects the word of the selected tag and token. By comparing, a similarity score can be calculated.
- the user-customized review image generation server 100 may select an object attribute from a plurality of tags assigned to the reference scene. Additionally, the similarity score between the object attribute tag and each word in the token can be calculated. As another example, when the morpheme value of the token is an adjective, the user-customized review video generation server 100 may select a screen attribute tag and a situation attribute tag from a plurality of tags assigned to the reference scene. Additionally, the similarity score between the screen attribute tag and the words in the token can be calculated, and the similarity score between the situation attribute tag and the words in the token can be calculated. Similarity score calculation can be performed on all reference scenes stored in the reference scene database.
- the user-customized review image generation server 100 may extract a reference scene assigned a tag with a similarity score of a certain score or more from the reference scene database.
- the user-customized review image generation server 100 may generate user-customized review image data by combining the extracted reference scene and pre-created environment data. To this end, the user-customized review video generation server 100 may select sound data according to a scenario and convert text data corresponding to the scenario into voice data. Additionally, the user-customized review video generation server 100 may generate an AI actor according to the above scenario.
- the user-customized review video generation server 100 generates a user-customized review video based on user behavior information related to the product registered on the web page and feedback data about the product has been described.
- the overall process by which the user-customized review video generation server 100 builds a reference scene database will be described.
- the user-customized review video generation server 100 can collect feedback data about products registered on a web page. And the collected feedback data can be analyzed according to type to create a reference scene.
- Feedback data for a product may include video data, image data, and/or text data, of which video data and/or image data may be used to generate a reference scene.
- the user-customized review video generation server 100 may decode the video data to obtain frames constituting the video data, and then sample the frames at playback time intervals.
- the user-customized review video generation server 100 may list the sampled frames in the order of playback time and calculate the degree of similarity between adjacent frames. When the similarity is calculated for all the listed frames, the user-customized review image generation server 100 groups the frames based on the similarity, thereby generating a plurality of reference scenes grouped on a scene basis.
- the user-customized review image generation server 100 may perform feature matching on adjacent frames to calculate the degree of similarity between adjacent frames. Specifically, the user-customized review image generation server 100 compares the keypoints between adjacent frames and, if the similarity is greater than the standard value, groups the frames into one scene to generate one reference scene. You can. If, as a result of comparing feature points between adjacent frames, the similarity is less than the standard value, it can be determined that the scene has been switched, and different reference images can be generated by grouping the corresponding frames into different scenes.
- the user-customized review image generation server 100 may extract objects for each listed frame and then determine whether to change the scene based on a change in the number of extracted objects. Additionally, a reference scene can be created based on the point in time when the number of extracted objects changes or the point in time when the number of extracted objects changes beyond the standard value.
- the user-customized review image generation server 100 determines whether the background has changed based on the change in pixel value between pixels in adjacent frames, and switches the scene based on the determination result. You can judge whether or not. Next, a reference scene can be created based on the point in time when the background changes.
- the user-customized review video generation server 100 may determine whether to change the scene based on a change in the content of audio data and/or subtitle data constituting the video data. Additionally, a reference scene can be created based on the point in time when new content appears in the audio data and/or subtitle data.
- the user-customized review image generation server 100 may extract objects for each listed frame and then determine whether a scene change occurs based on a change in the type of the extracted object. Additionally, a reference scene can be created based on the point in time when a previously extracted object disappears and/or when a new object appears.
- the user-customized review image generation server 100 may define the image data as a reference scene.
- the user-customized review image generation server 100 can analyze the generated reference scenes and extract characteristic information of each reference scene. And, depending on the extracted feature information, different types of tags can be assigned to each reference scene. For example, according to the extracted feature information, one of an object attribute tag, a screen attribute tag, a situation attribute tag, and a highlight attribute tag can be assigned to each reference scene.
- the process of allocating an object attribute tag, a process of allocating a screen attribute tag, and a process of assigning a situation attribute tag will be described in turn.
- the user-customized review image generation server 100 may detect the characteristic area of the object in the reference scene (Interest Point Detection).
- the feature area refers to the main area from which a feature descriptor that describes the characteristics of an object is extracted.
- Feature descriptors may also be referred to as descriptors, feature vectors, or vector values, and may be used to determine whether objects are identical or similar.
- feature areas include the contours of the object, corners such as corners among the contours, blobs that are distinct from the surrounding area, areas that are invariant or covariant depending on the deformation of the reference scene, and/or are darker than the surrounding brightness. Or it may contain poles with bright features.
- the feature area may target a patch (piece) of the reference scene or the entire reference scene.
- the commerce image creation server 100 may extract feature information of the object from the detected feature area. After extracting a feature descriptor that expresses the extracted feature information as a vector value, an object attribute tag can be assigned to the reference scene according to the feature descriptor.
- the user-customized review image generation server 100 may detect the feature area of the reference scene and extract feature information of the reference scene from the detected feature area. After extracting a feature descriptor that expresses the extracted feature information as a vector value, a screen attribute tag can be assigned to the reference scene according to the feature descriptor.
- the above-mentioned feature descriptor may be calculated using the location of the feature area, brightness, color, sharpness, gradient, scale and/or pattern information of the feature area in the reference scene.
- the feature descriptor may calculate the brightness value, brightness change value, and/or distribution value of the feature area by converting them into vectors.
- the feature descriptor is not only a local descriptor based on the feature area as described above, but also a global descriptor, frequency descriptor, binary descriptor, or neural network descriptor. It can also be expressed as
- the global descriptor can convert the brightness, color, sharpness, gradient, scale, and/or pattern information of the entire reference scene, each area where the reference scene is divided by an arbitrary standard, or each feature area into vector values. there is.
- the frequency descriptor can convert the number of times pre-classified feature descriptors are included in a reference scene and/or the number of times they include global features such as a conventionally defined color table into a vector value.
- a binary descriptor can be used by extracting in bits whether each descriptor is included and/or whether the size of each element value constituting the descriptor is larger or smaller than a specific value, and then converting it to an integer type.
- a neural network descriptor can extract image information used for learning or classification from the layers of a neural network.
- the user-customized review video generation server 100 may apply a scene type analysis model to a reference scene.
- a scene type analysis model may refer to a model learned to receive a scene as input and output the scene type.
- the scene type may refer to the type of situation being expressed in the scene.
- the commerce video creation server 100 may assign a situation attribute tag to the reference scene according to the type of the extracted situation.
- the user-customized review video generation server 100 can build a scene type analysis model as a CNN (Convolution Neural Network) model, one of the deep learning models, and learn the above-described data set.
- the CNN model can be designed to include two convolutional layers, a relu layer, a max pooling layer, and one fully connected layer.
- the user-customized review image generation server 100 uses the RCNN technique to construct a feature sequence in the map order of the convolution feature maps calculated from the CNN model, and then converts each feature sequence into a long It can be learned by substituting for short term memory networks (LSTM; Long Short Term Memory networks).
- LSTM Short Term Memory networks
- the user-customized review video creation server 100 may extract highlight portions from video data.
- the highlight portion may refer to a section containing the most important information in video data. For example, if the content of the video data consists of four sections of start-win-before-resolution, the section corresponding to 'before' may be considered the highlight section. Highlights can be extracted manually or automatically.
- the user-customized review video creation server 100 may assign a highlight attribute tag to the reference scene corresponding to the highlight portion.
- FIG. 2 is a diagram illustrating an image generating device of a user-customized review image generation server according to an embodiment of the present disclosure.
- the image generation device 200 of the user customized review image generation server 100 includes a script generation unit 210, a scenario generation unit 220, a keyword extraction unit 230, and a reference scene data extraction unit ( 240), an environmental data generator 250, and a review image generator 260.
- the script generator 210 may analyze text data among the feedback data for products registered on the web page into keywords in word units. Next, the script generator 210 may generate a script using text that matches the attribute determined based on the user's behavior information among one or more attributes related to the keyword stored in the script database.
- the script generator 210 searches the script database for keywords analyzed from the text data of the feedback data, and then creates object properties of the object corresponding to the searched keyword, screen properties of the scene matching the object, and A script can be created using text that matches the attribute determined based on the user's behavior information among the situation attributes of the scene and the highlight attributes of the scene that match the object.
- the scenario generator 220 may generate a scenario composed of a standard scene based on the script generated by the script generator 210. According to embodiments, the scenario may further include sound effects and/or atmosphere in addition to the reference scene.
- the keyword extraction unit 230 may extract keywords from the script generated by the script creation unit 210. More specifically, the keyword extractor 230 may extract words from the text of the script based on spaces. And, based on a database of frequency values for each word created in advance, the frequency values of the extracted words can be measured.
- a token may include a pair of words and morpheme values, and may be assigned a label indicating a frequency value.
- the keyword extractor 230 has (frequency value: 1000, (word, morpheme value)), (frequency value: 234, (word, morpheme value)), (frequency value: 2541, (word, morpheme value) )), (frequency value: 2516, (word, morpheme value)) can be created.
- the keyword extractor 230 may assign different weights to each token according to the word and/or label of each token.
- the keyword extraction unit 230 determines the type of language (e.g., English, Chinese, Korean, etc.) that implements the word in the token, the position of the word within the text of the script, and/or the label assigned to the token.
- different weights can be assigned to each token.
- the keyword extractor 230 may calculate the first weight using the total number of tokens generated from the text of the script and the order of each token.
- the keyword extraction unit 230 quantifies the order of the current token based on the total number of tokens generated from the text of the script and an important value predetermined according to the type of language, and provides information on the current token.
- 1 Weight can be calculated. For example, if the total number of tokens is 12 and the order of the token is 4th, the keyword extractor 230 may default 12 to '1' and divide 1 by 4 to calculate '0.25'.
- the first weight can be calculated by reflecting the important value predetermined according to the type of language in the value calculated in this way. According to an embodiment, the significant value may change depending on the order of the current token.
- the important value reflected may also increase as the order of the current token increases. If the important word is a language that appears at the beginning of the sentence, the important value reflected will decrease as the order of the current token increases.
- the keyword extractor 230 may calculate the second weight using the frequency value indicated by the label of the current token, the frequency value indicated by the label of the previous token, and the frequency value indicated by the label of the next token. .
- the keyword extractor 240 may assign a final weight to the current token using the first weight and the second weight. Then, keywords consisting of tokens with final weights can be extracted.
- the reference scene extractor 240 may calculate a similarity score between the keyword extracted by the keyword extractor 240 and the tag assigned to the reference scene.
- the similarity score is a score expressing the degree to which the extracted keyword matches the tag assigned to the reference scene.
- the reference scene extractor 240 selects a tag that matches the morpheme value of the token constituting the keyword from among the plurality of tags assigned to the reference scene, and compares the selected tag with the word of the token. A similarity score can be calculated.
- the reference scene extractor 240 may select an object attribute tag from a plurality of tags assigned to the reference scene. Additionally, the similarity score between the object attribute tag and the token can be calculated. As another example, when the morpheme value of the token is an adjective, the reference scene extractor 240 may select a screen attribute tag and a situation attribute tag from a plurality of tags assigned to the reference scene. Additionally, the similarity score between the screen attribute tag and the words in the token can be calculated, and the similarity score between the situation attribute tag and the words in the token can be calculated. Similarity score calculation can be performed on all reference scenes stored in the reference scene database. Thereafter, the reference scene extractor 240 may extract a reference scene assigned a tag with a similarity score of a certain score or more from the reference scene database.
- the environmental data generator 250 may select sound data according to the scenario. And the environment data generator 250 can convert text data corresponding to the scenario into voice data. Furthermore, the environmental data generator 250 may generate an AI actor according to the scenario.
- the review image generator 260 may generate a review image by combining the reference scene extracted by the reference scene extractor 240 and the environmental data generated by the environment data generator 250.
- FIG. 3 is a diagram illustrating a reference image providing device of a user-customized review image generation server according to an embodiment of the present disclosure.
- the reference image providing device 300 of FIG. 3 can build a reference scene database 330 and provide a reference scene extracted from the reference scene database 330 to the image generating device 200.
- the reference scene providing device 300 may include a reference scene database construction unit 310, a tag allocation unit 320, and a reference scene database 330.
- the reference scene database construction unit 310 may collect user feedback data about products registered on a web page. Thereafter, the reference scene database construction unit 310 may generate a reference scene by analyzing the collected feedback data according to type.
- Feedback data for a product may include video data, image data, and/or text data, of which video data and/or image data may be used to generate a reference scene.
- the reference scene database construction unit 310 may decode the video data to obtain frames constituting the video data, and then sample the frames at playback time intervals.
- the reference scene database construction unit 310 may list the sampled frames in the order of playback time and calculate the degree of similarity between adjacent frames. When the similarity is calculated for all the listed frames, the reference scene database construction unit 310 groups the frames based on the similarity, thereby creating a plurality of reference scenes on a scene basis.
- the reference scene database construction unit 310 may perform feature matching on adjacent frames to calculate the degree of similarity between adjacent frames. Specifically, as a result of comparing keypoints between adjacent frames, if the similarity is greater than the standard value, the reference scene database construction unit 310 can generate one reference scene by grouping the frames into one scene. there is. If, as a result of comparing feature points between adjacent frames, the similarity is less than the standard value, the reference scene database construction unit 310 may determine that the scene has been switched, and group the corresponding frames into different scenes, thereby Other reference images can be created.
- the reference scene database construction unit 310 may extract objects for each listed frame and then determine whether to change the scene based on a change in the number of extracted objects. Additionally, a reference scene can be created based on the point in time when the number of extracted objects changes or the point in time when the number of extracted objects changes beyond the standard value.
- the reference scene database construction unit 310 determines whether the background changes based on a change in pixel value between pixels in adjacent frames, and whether or not there is a scene change based on the determination result. can be judged. Next, a reference scene can be created based on the point in time when the background changes.
- the reference scene database construction unit 310 may determine whether to change the scene based on a change in the content of audio data and/or subtitle data constituting the video. Additionally, a reference scene can be created based on the point in time when new content appears in the audio data and/or subtitle data.
- the reference scene database construction unit 310 extracts objects for each listed frame and then determines the scene change sequence based on a change in the type of the extracted object. Additionally, a reference scene can be created based on the point in time when a previously extracted object disappears and/or when a new object appears.
- the reference scene database construction unit 310 may define the image data as a reference scene.
- the tag allocation unit 320 may analyze the generated reference scenes and extract feature information of each reference scene. And, depending on the extracted feature information, different types of tags can be assigned to each reference scene. For example, depending on the extracted feature information, one of an object attribute tag, a screen attribute tag, a situation attribute tag, and a highlight attribute tag can be assigned.
- the tag allocator 320 may detect a characteristic area of an object in a reference scene (Interest Point Detection).
- the feature area refers to the main area from which a feature descriptor that describes the characteristics of an object is extracted.
- Feature descriptors may be referred to as descriptors, feature vectors, or vector values, and may be used to determine whether objects are identical or similar.
- feature areas include the contours of the object, corners such as corners among the contours, blobs that are distinct from the surrounding area, areas that are invariant or covariant depending on the deformation of the reference scene, and/or are darker than the surrounding brightness. Or it may contain poles with bright features.
- the feature area may target a patch (piece) of the reference scene or the entire reference scene.
- the tag allocator 320 may extract feature information of the object from the detected feature area. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And object attribute tags can be assigned to the reference scene according to the feature descriptor.
- the tag allocator 320 may detect a feature area of a reference scene. And feature information of the reference scene can be extracted from the feature area of the detected reference scene. Additionally, a feature descriptor expressing the extracted feature information as a vector value can be extracted. And screen attribute tags can be assigned to the reference scene according to the feature descriptor.
- the above-mentioned feature descriptor may be calculated using the location of the feature area, brightness, color, sharpness, gradient, scale and/or pattern information of the feature area in the reference scene.
- the feature descriptor may calculate the brightness value, brightness change value, and/or distribution value of the feature area by converting them into vectors.
- the tag allocation unit 320 may apply the reference scene to the scene type analysis model.
- a scene type analysis model may refer to a model learned to receive a scene as input and output the scene type.
- the scene type may refer to the type of situation being expressed in the scene.
- the tag allocation unit 320 may assign a situation attribute tag to the reference scene according to the type of the extracted situation.
- the tag allocator 320 may build a scene type analysis model as a CNN (Convolution Neural Network) model, which is one of the deep learning models, and learn the above-described data set.
- the CNN model can be designed to include two convolutional layers, a relu layer, a max pooling layer, and one fully connected layer.
- the tag allocation unit 320 uses the RCNN technique to configure a feature sequence in the map order of the convolution feature maps calculated from the CNN model, and then stores each feature sequence in long and short term memory. It can be learned by substituting it into a network (LSTM; Long Short Term Memory networks).
- LSTM Long Short Term Memory networks
- the tag allocator 320 may extract a highlight portion from video data.
- the highlight portion may refer to a section containing the most important information in video data. For example, if the content of the video data consists of four sections of start-win-before-resolution, the section corresponding to 'before' may be considered the highlight section. Highlights can be extracted manually or automatically.
- the tag allocation unit 320 may assign a highlight attribute tag to the reference scene corresponding to the highlight portion.
- the reference image to which a tag is assigned by the tag allocation unit 320 may be stored in the reference scene database 330.
- the reference scene database 330 may store the start time of the reference scene, the end time of the reference scene, and one or more tags assigned to the reference scene in a table format.
- Figure 4 is a flowchart illustrating a method for generating a user-customized review image using feedback data according to an embodiment of the present disclosure.
- the user-customized review video generation server 100 generates feedback data for products registered on the web page and a pre-generated script.
- a script for the product can be created based on the database (S410).
- products registered on a web page can be understood to include not only the item being sold but also advertisements related to the item.
- Feedback data for a product may include video data, image data, and/or text data, of which text data may be used to create a script.
- the user-customized review video generation server 100 may generate a scenario based on the script and extract keywords from the script (S420).
- Step S420 may include generating a scenario based on a script and extracting keywords based on the script.
- the step of generating a scenario based on a script may further include the step of generating environmental data according to the scenario.
- Environmental data may include acoustic data, voice data, and/or AI actors.
- Sound data according to the scenario may be selected from previously stored sound data.
- Voice data according to the scenario can be obtained by converting text data according to the scenario.
- the step of extracting keywords based on the script in step S420 includes extracting words from the text of the script based on spaces, and measuring the frequency value of the extracted words based on a database of frequency values for each word created in advance. , generating tokens by performing morphological analysis on each of the extracted words, assigning different weights to each token according to the word of each token and/or the label of each token, and tokens whose weight is greater than or equal to the reference value. It may include the step of extracting words from as keywords.
- the user-customized review image generation server 100 selects a reference image to which a tag matching a keyword is assigned among reference images generated using feedback data of products registered on a web page into the reference scene database 330. It can be extracted from (S430).
- the step S430 includes selecting a specific tag among a plurality of tags assigned to each reference scene based on the morpheme value of the token constituting the keyword, calculating a similarity score between the selected tag and the token, and the similarity score. It may include extracting reference scenes assigned to tags with a specific score or higher from a reference scene database.
- step S430 is, when the morpheme value of the token constituting the keyword is a noun, selecting an object attribute tag from a plurality of tags assigned to each reference scene, similarity between the selected object attribute tag and the token It may include calculating a score, and extracting a reference image to which an object attribute tag with a similarity score of a certain score or more is assigned from a reference scene database.
- the step S430 includes, when the morpheme value of the token constituting the keyword is an adjective, selecting a screen attribute tag and a situation attribute tag from a plurality of tags assigned to each reference scene, the selected screen attribute A step of calculating a similarity score between a tag and a token, a step of calculating a similarity score between a selected situation attribute tag and a token, a reference video to which a screen attribute tag with a similarity score of a certain score or more is assigned, and a situation attribute tag with a similarity score of a certain score or more. It may include extracting a reference image to which is assigned from a reference image database.
- the user-customized review image generation server 100 may generate a user-customized review image by combining the environmental data previously generated according to the scenario in step S420 and the reference image extracted in step S430 (S440).
- Figure 5 is a flow chart illustrating a method for building a reference image database according to an embodiment of the present disclosure.
- the user-customized review video generation server 100 may collect feedback data for products registered on a web page (step S510).
- Feedback data for a product may include video data, image data, and/or text images, of which video data and/or image data may be used to generate a reference scene.
- the user-customized review video generation server 100 may decode video data among the collected review data to obtain frames constituting the video data, and sample the frames at playback time intervals (S520).
- the user-customized review image generation server 100 may generate a plurality of reference scenes by grouping the sampled frames into scenes (S530).
- the criteria for determining whether to switch scenes include similarity between adjacent frames, change in the number of objects extracted from adjacent frames, change in the type of object extracted from adjacent frames, and frames adjacent to each other. Examples include whether the background changes between fields and changes in the content of audio data and/or subtitle data.
- the user-customized review image generation server 100 may extract feature information of each reference scene and assign one or more tags according to the extracted feature information (step S540).
- Tags that can be assigned to each reference scene include, for example, an object attribute tag, a screen attribute tag, a situation attribute tag, and/or a highlight attribute tag.
- programs for various operations of the user-customized review image creation server 100 may be stored in the memory of the commerce image creation server 100.
- the processor of the user-customized review image generation server 100 may load and execute the program stored in the memory.
- the processor may be implemented as an application processor (AP), central processing unit (CPU), microcontroller unit (MCU), or similar devices, depending on hardware, software, or a combination thereof.
- AP application processor
- CPU central processing unit
- MCU microcontroller unit
- hardware may be provided in the form of an electronic circuit that processes electrical signals to perform a control function
- software may be provided in the form of a program or code that drives the hardware circuit.
- the disclosed embodiments may be implemented in the form of a recording medium that stores instructions executable by a computer. Instructions may be stored in the form of program code, and when executed by a processor, may create program modules to perform operations of the disclosed embodiments.
- the recording medium may be implemented as a computer-readable recording medium.
- Computer-readable recording media include all types of recording media storing instructions that can be decoded by a computer. For example, there may be read only memory (ROM), random access memory (RAM), magnetic tape, magnetic disk, flash memory, optical data storage, etc.
- ROM read only memory
- RAM random access memory
- magnetic tape magnetic tape
- magnetic disk magnetic disk
- flash memory optical data storage
- computer-readable recording media may be provided in the form of non-transitory storage media.
- 'non-transitory storage medium' only means that it is a tangible device and does not contain signals (e.g. electromagnetic waves). This term refers to cases where data is semi-permanently stored in a storage medium and temporary storage media. It does not distinguish between cases where it is stored as .
- a 'non-transitory storage medium' may include a buffer where data is temporarily stored.
- methods according to various embodiments disclosed in this document may be included and provided in a computer program product.
- Computer program products are commodities and can be traded between sellers and buyers.
- the computer program product may be distributed in the form of a machine-readable recording medium (e.g. compact disc read only memory (CD-ROM)) or via an application store (e.g. Play StoreTM) or on two user devices (e.g. It may be distributed directly between smartphones (e.g. smartphones) or distributed online (e.g. downloaded or uploaded).
- a machine-readable recording medium e.g. compact disc read only memory (CD-ROM)
- an application store e.g. Play StoreTM
- two user devices e.g. It may be distributed directly between smartphones (e.g. smartphones) or distributed online (e.g. downloaded or uploaded).
- a computer program product e.g., a downloadable app
- a machine-readable recording medium such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be stored or created temporarily.
- the commerce video generation method and server using review data as described above can be applied to the video production field.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 개시의 일 실시예에 따른 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법은 웹 페이지에 대한 사용자의 행동 정보가 수신됨에 따라 상기 사용자의 행동 정보를 기초로 사용자 관심 상품을 결정하고, 상기 웹 페이지에서 상기 사용자 관심 상품에 대한 피드백 데이터를 수집하는 단계; 상기 사용자 관심 상품에 대한 피드백 데이터 및 미리 생성된 스크립트 데이터베이스를 기초로 상기 사용자 관심 상품에 대한 스크립트를 생성하는 단계; 상기 참조 영상들 중 상기 스크립트에서 추출된 키워드와 매칭되는 태그가 할당되어 있는 참조 영상을 추출하는 단계; 및 상기 추출된 참조 영상을 이용하여 사용자 맞춤형 리뷰 영상을 생성하는 단계;를 포함할 수 있다.
Description
본 개시는 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법 및 서버에 관한 것이다. 보다 구체적으로 사용자 관심 상품에 대한 사용자의 피드백 데이터를 이용하여 사용자 맞춤형 리뷰 영상을 생성하여 제공할 수 있는 사용자 맞춤형 리뷰 영상 생성 방법 및 서버에 관한 것이다.
정보통신기술의 발달 및 정보통신기기의 보급으로 온라인 쇼핑을 위한 인프라가 구축되었다. 온라인 쇼핑이란 인터넷을 기반으로 기업 간, 기업과 소비자 간, 또는 소비자와 소비자 간에 전자적인 정보를 매개로 제품과 서비스를 거래하는 것을 말한다. 인터넷 쇼핑, 웹 쇼핑, 언택트 쇼핑, 인터넷 판매, 언택트 판매, 전자상거래, 웹 커머스 등으로 불리기도 한다.
온라인 쇼핑은 상품 구매에 소요되는 시간을 절약하려는 현대인의 요구를 만족시켰고, 이에 따라 지속적인 성장세를 보였다. 나아가 코로나 19(covid-19)와 같이 대인 접촉을 통해 발생하는 전염병의 확산은 온라인 쇼핑 시장을 폭발적으로 증가시켰다.
온라인 쇼핑의 유형으로는 온라인 마켓, TV홈쇼핑 및 라이브 커머스를 예로 들 수 있다. 라이브 스트리밍(Live streaming)과 전자 상거래(E-commerce)의 합성어로, 웹, 애플리케이션 등의 플랫폼을 통해 실시간 동영상 스트리밍으로 상품을 소개하고 판매하는 온라인 채널을 말한다. 즉, 라이브 커머스는 온라인 쇼핑과 방송의 결합으로 정의할 수 있다. 라이브 커머스는 생방송처럼 실시간으로 현장에서 쇼호스트가 제품을 설명하고 판매한다는 점에서 TV홈쇼핑과 유사하지만, TV 채널이 아닌 모바일상으로 용량이나 참여에 제한 없이 누구나 쉽게 채널을 열고 방송을 진행할 수 있는 특징이 있다. 또한 라이브 커머스는 상품을 판매하는 과정에서 판매자와 구매자 간의 실시간 소통이 가능하다는 점에서 TV홈쇼핑과 차이가 있다.
TV홈쇼핑의 경우에도 판매자가 쇼호스트를 통해 상품 설명을 제공하기는 하나, 라이브 커머스는 실시간 소통을 통해 구매자가 실제 궁금해하는 상품 정보에 대한 설명을 신속하고 정확하게 제공해줄 수 있다. 라이브 커머스의 이러한 장점은 매출액 증가에 기여할 수 있다.
그 외에도, 라이브 커머스는 TV홈쇼핑 대비 플랫폼에 할당되는 수수료가 낮고, 진입장벽이 낮다는 장점이 있다. 이러한 장점 덕분에, 국내(한국) 라이브 커머스 시장은 급격히 성장하고 있고, 라이브 커머스 시장의 규모는 앞으로도 더 커질 것으로 전망되고 있다.
이러한 장점에도 불구하고, 라이브 커머스는 통상적인 온라인 마켓과 비교했을 때, 판매자가 재고 관리 시 의사결정에 활용할 수 있는 데이터나 예측 정보를 충분히 확보하는 것이 어렵다. 때문에 라이브 커머스에서는 판매자의 경험이 의사결정의 주된 근거가 된다. 그런데 이러한 의사결정 모델은 정확도가 높지 않기 때문에 재고관리가 실패할 가능성이 있다. 재고관리의 실패는, 판매자에게 적극적 손해 또는 소극적 손해를 유발하며, 이는 판매자의 이탈 및 판매자의 이탈로 인한 라이브 커머스 시장의 성장 저해로 이어질 수 있다. 이외에도, 라이브 커머스는 셀럽들의 높은 출연료로 인한 비용 증가 및 컨테느 재사용 불가라는 단점이 있다. 또한, 라이브 커머스가 아니더라도 다른 사용자 맞춤형 리뷰 영상도 생성 비용이 높다는 단점이 있다.
본 개시가 해결하고자 하는 일 과제는 사용자 관심 상품에 대한 사용자의 피드백 데이터를 이용하여 사용자 맞춤형 리뷰 영상을 생성할 수 있는 사용자 맞춤형 리뷰 영상 생성 방법 및 서버를 제공하는 것이다.
본 개시가 해결하고자 하는 과제가 상술한 과제로 제한되는 것은 아니며, 언급되지 아니한 과제들은 본 명세서 및 첨부된 도면으로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 실시예에 따른 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법은 웹 페이지에 대한 사용자의 행동 정보가 수신됨에 따라 상기 사용자의 행동 정보를 기초로 사용자 관심 상품을 결정하고, 상기 사용자 관심 상품에 대한 사용자의 피드백 데이터를 수집하는 단계; 상기 수집된 피드백 데이터를 종류에 따라 분석하여 참조 장면들을 생성하는 단계; 상기 참조 장면들 각각으로부터 추출된 특징 정보에 따라 상기 참조 장면들 각각에 하나 이상의 태그를 할당하는 단계 -상기 하나 이상의 태그는 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그를 포함함-; 상기 사용자 관심 상품에 대한 피드백 데이터 및 미리 생성된 스크립트 데이터베이스를 기초로 상기 사용자 관심 상품에 대한 스크립트를 생성하는 단계; 상기 참조 영상들 중 상기 스크립트에서 추출된 키워드와 매칭되는 태그가 할당되어 있는 참조 영상을 추출하는 단계; 및 상기 추출된 참조 영상을 이용하여 사용자 맞춤형 리뷰 영상을 생성하는 단계;를 포함할 수 있다.
상기 참조 장면들을 생성하는 단계는, 상기 수집된 피드백 데이터 중 동영상 데이터를 디코딩하여 프레임들을 획득하고, 재생 시간 간격으로 프레임들을 샘플링하는 단계; 및 상기 샘플링된 프레임들을 장면 단위로 그룹핑하여 상기 참조 영상들을 생성하는 단계;를 포함할 수 있다.
상기 스크립트 데이터베이스는, 키워드와 관련된 하나 이상의 속성 및 각 속성에 매칭되는 텍스트를 저장하되, 상기 하나 이상의 속성은 상기 키워드에 해당하는 오브젝트의 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성, 오브젝트와 매칭되는 장면의 상황 속성 및 오브젝트와 매칭되는 장면의 하이라이트 속성을 포함하고, 상기 스크립트를 생성하는 단계는, 상기 수집된 피드백 데이터 중 텍스트 데이터를 단어 단위의 키워드로 분석하는 단계; 상기 스크립트 데이터베이스를 참조하여, 상기 분석된 키워드에 대응하는 하나 이상의 속성을 결정하는 단계; 및 상기 결정된 하나 이상의 속성과 매칭되는 텍스트를 이용하여 상기 스크립트를 생성하는 단계를 포함할 수 있다.
상기 참조 영상을 추출하는 단계는, 공백을 기준으로 상기 스크립트의 텍스트로부터 단어들을 추출하는 단계; 미리 생성된 단어별 빈도 값 데이터베이스를 기초로, 상기 추출된 단어들의 빈도 값을 측정하는 단계; 상기 추출된 단어들을 대상으로 형태소 분석을 실행하여 토큰을 생성하는 단계 -상기 토큰은 단어와 형태소 값의 쌍을 포함하며, 상기 단어의 빈도 값을 지시하는 레이블이 할당됨-; 각 토큰의 단어 및 각 토큰의 레이블에 따라, 상기 각 토큰의 단어에 서로 다른 가중치를 부여하는 단계; 상기 부여된 가중치가 기준치 이상인 토큰의 단어를 상기 키워드로 추출하는 단계; 상기 키워드를 구성하는 토큰의 형태 소 값에 근거하여, 상기 참조 영상들 각각에 할당되어 있는 하나 이상의 태그 중 특정 태그를 선택하는 단계; 상기 선택된 태그와 상기 키워드를 구성하는 토큰 간의 유사도 점수를 산출하는 단계; 및 상기 참조 영상들 중 상기 유사도 점수가 특정 점수 이상인 태그가 할당되어 있는 참조 장면을 추출하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 서버는 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서로 하여금 동작들(Operatioins)을 실행하도록 구성된 명령어들(Instructions)을 포함하는 메모리;를 포함하되, 상기 동작들은, 웹 페이지에 대한 사용자의 행동 정보가 수신됨에 따라 상기 사용자의 행동 정보를 기초로 사용자 관심 상품을 결정하고, 상기 사용자 관심 상품에 대한 사용자의 피드백 데이터를 수집하는 것; 상기 수집된 피드백 데이터를 종류에 따라 분석하여 참조 장면들을 생성하는 것; 상기 참조 장면들 각각으로부터 추출된 특징 정보에 따라 상기 참조 장면들 각각에 하나 이상의 태그를 할당하는 것 -상기 하나 이상의 태그는 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그를 포함함-; 상기 사용자 관심 상품에 대한 피드백 데이터 및 미리 생성된 스크립트 데이터베이스를 기초로 상기 사용자 관심 상품에 대한 스크립트를 생성하는 것; 상기 참조 영상들 중 상기 스크립트에서 추출된 키워드와 매칭되는 태그가 할당되어 있는 참조 영상을 추출하는 것; 및 상기 추출된 참조 영상을 이용하여 사용자 맞춤형 리뷰 영상을 생성하는 것;을 포함할 수 있다.
상기 참조 장면들을 생성하는 것은, 상기 수집된 피드백 데이터 중 동영상 데이터를 디코딩하여 프레임들을 획득하고, 재생 시간 간격으로 프레임들을 샘플링하는 것; 및 상기 샘플링된 프레임들을 장면 단위로 그룹핑하여 상기 참조 영상들을 생성하는 것;을 포함할 수 있다.
상기 스크립트 데이터베이스는, 키워드와 관련된 하나 이상의 속성 및 각 속성에 매칭되는 텍스트를 저장하되, 상기 하나 이상의 속성은 상기 키워드에 해당하는 오브젝트의 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성, 오브젝트와 매칭되는 장면의 상황 속성 및 오브젝트와 매칭되는 장면의 하이라이트 속성을 포함하고, 상기 스크립트를 생성하는 것은, 상기 수집된 피드백 데이터 중 텍스트 데이터를 단어 단위의 키워드로 분석하는 것; 상기 스크립트 데이터베이스를 참조하여, 상기 분석된 키워드에 대응하는 하나 이상의 속성을 결정하는 것; 및 상기 결정된 하나 이상의 속성과 매칭되는 텍스트를 이용하여 상기 스크립트를 생성하는 것;을 포함할 수 있다.
상기 참조 영상을 추출하는 것은, 공백을 기준으로 상기 스크립트의 텍스트로부터 단어들을 추출하는 것; 미리 생성된 단어별 빈도 값 데이터베이스를 기초로, 상기 추출된 단어들의 빈도 값을 측정하는 것; 상기 추출된 단어들을 대상으로 형태소 분석을 실행하여 토큰을 생성하는 것 -상기 토큰은 단어와 형태소 값의 쌍을 포함하며, 상기 단어의 빈도 값을 지시하는 레이블이 할당됨-; 각 토큰의 단어 및 각 토큰의 레이블에 따라, 상기 각 토큰의 단어에 서로 다른 가중치를 부여하는 것; 상기 부여된 가중치가 기준치 이상인 토큰의 단어를 상기 키워드로 추출하는 단계; 상기 키워드를 구성하는 토큰의 형태 소 값에 근거하여, 상기 참조 영상들 각각에 할당되어 있는 하나 이상의 태그 중 특정 태그를 선택하는 것; 상기 선택된 태그와 상기 키워드를 구성하는 토큰 간의 유사도 점수를 산출하는 것; 및 상기 참조 영상들 중 상기 유사도 점수가 특정 점수 이상인 태그가 할당되어 있는 참조 장면을 추출하는 것;을 포함할 수 있다.
본 개시의 기술적 해결방법이 상술한 기술적 해결방법들로 제한되는 것은 아니며, 언급되지 아니한 기술적 해결방법들은 본 명세서 및 첨부된 도면으로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 실시예에 따른 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법 및 서버에 의하면, 사용자 관심 상품에 대한 사용자의 피드백 데이터를 이용하여 사용자 맞춤형 리뷰 영상을 생성하여 제공할 수 있다.
본 개시의 효과가 상술한 효과로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 본 개시의 일 실시예에 따른 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 시스템을 도시한 도면이다.
도 2는 본 개시의 일 실시예에 따른 사용자 맞춤형 리뷰 영상 생성 서버의 영상 생성 장치를 도시한 도면이다.
도 3은 본본 개시의 일 실시예에 따른 사용자 맞춤형 리뷰 영상 생성 서버의 참조 영상 제공 장치를 도시한 도면이다.
도 4는 본 개시의 일 실시예에 따른 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법을 도시한 순서도이다.
도 5는 본 개시의 일 실시예에 따른 참조 영상 데이터베이스 구축 방법을 도시한 순서도이다.
본 개시의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통해 보다 분명해질 것이다. 다만, 본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예들을 가질 수 있는 바, 이하에서는 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.
명세서 전체에 걸쳐서 동일한 참조번호들은 원칙적으로 동일한 구성요소들을 나타낸다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명하며, 이에 대한 중복되는 설명은 생략하기로 한다.
본 개시와 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 이하의 실시예에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.
도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타낸 것으로, 본 개시가 반드시 도시된 바에 한정되지 않는다.
어떤 실시예가 달리 구현 가능한 경우에 특정한 프로세스의 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 프로세스가 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.
이하의 실시예에서, 구성 요소 등이 연결되었다고 할 때, 구성 요소들이 직접적으로 연결된 경우뿐만 아니라 구성요소들 중간에 구성 요소들이 개재되어 간접적으로 연결된 경우도 포함한다.
예컨대, 본 명세서에서 구성 요소 등이 전기적으로 연결되었다고 할 때, 구성 요소 등이 직접 전기적으로 연결된 경우뿐만 아니라, 그 중간에 구성 요소 등이 개재되어 간접적으로 전기적 연결된 경우도 포함한다.
이하에서는 도 1 내지 도 5를 참조하여 본 개시의 예시적인 실시예에 따른 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법 및 서버에 관하여 설명한다.
도 1은 본 개시의 일 실시예에 따른 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 시스템을 도시한 도면이다.
도 1을 참조하면, 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 시스템은 사용자 맞춤형 리뷰 영상 생성 서버(100), 하나 이상의 온라인 마켓 서버(400) 및 하나 이상의 사용자 단말(500)을 포함한다.
온라인 마켓 서버(400)는 웹 페이지를 통해 상품을 판매하는 판매자가 운영하는 서버이다. 웹 페이지는 메인 페이지, 상품 상세 페이지, 장바구니 페이지, 및 사용자 정보 페이지 중 하나 이상을 포함할 수 있다. 웹 페이지는 이미지, 텍스트, 및 사용자 입력을 위한 버튼을 포함할 수 있다. 사용자 입력을 위한 버튼으로는 장바구니 담기 버튼, 관심 상품 등록 버튼 및/또는 결제 버튼을 예로 들 수 있으나, 예시된 것들로 반드시 한정되는 것은 아니다.
온라인 마켓 서버(400)는 판매자의 웹 페이지를 사용자 단말(500)로 제공할 수 있다. 사용자 단말(500)을 통해 표시된 웹 페이지와 관련된 사용자의 행동 정보를 사용자 단말(500)로부터 제공받으면, 온라인 마켓 서버(400)는 제공받은 사용자의 행동 정보를 사용자 맞춤형 리뷰 영상 생성 서버(100)로 제공할 수 있다. 일 예로, 상품 A를 판매하기 위한 상품 상세 페이지가 사용자 단말(500)을 통해 표시되고 있는 상태에서, 사용자가 상품 A의 이미지를 클릭하는 경우, 온라인 마켓 서버(400)는 이와 관련된 사용자의 행동 정보를 사용자 단말(500)로부터 제공받을 수 있으며, 제공받은 사용자의 행동 정보를 사용자 맞춤형 리뷰 영상 생성 서버(100)로 제공할 수 있다. 다른 예로, 상품 A를 판매하기 위한 상품 상세 페이지가 사용자 단말(500)을 통해 표시되고 있는 상태에서, 사용자가 장바구니 담기 버튼을 클릭하여 상품 A를 장바구니에 담은 경우, 온라인 마켓 서버(400)는 이와 관련된 사용자의 행동 정보를 사용자 단말(500)로부터 제공받을 수 있으며, 제공받은 사용자의 행동 정보를 사용자 맞춤형 리뷰 영상 생성 서버(100)로 제공할 수 있다.
사용자 단말(500)은 사용자가 보유하는 단말이다. 사용자 단말(500)로는 데스크탑, 스마트폰 및 태블릿 PC를 예로 들 수 있으나 예시된 것들로 한정되는 것은 아니며, 웹 페이지 표시, 검색 요청 및/또는 커머스 영상 표시를 실행할 수 있는 전자 장치라면 사용자 단말(500)에 포함될 수 있다.
실시예에 따르면, 사용자 단말(50)은 온라인 마켓 서버(400)에 접속하기 위한 온라인 마켓 어플리케이션을 포함할 수 있다. 따라서, 사용자의 명령에 따라 온라인 마켓 어플리케이션이 실행되면, 사용자 단말(500)은 온라인 마켓 어플리케이션을 통해 온라인 마켓 서버(400)에 접속할 수 있다.
사용자 단말(500)은 온라인 마켓 어플리케이션을 통해 온라인 마켓 서버(400)에서 제공되는 웹 페이지를 표시할 수 있다. 웹 페이지는 사용자의 스크롤 입력에 따라 화면에 즉시 표시될 수 있도록 전자장치에 로딩된 화면 및/또는 상기 화면 내부의 컨텐츠를 포함할 수 있다. 예를 들어, 사용자 단말(500)의 온라인 마켓 어플리케이션을 통해 웹 페이지가 표시된 상태에서 수평 또는 수직 방향으로 길게 연장되어 사용자의 스크롤에 따라 표시되는 어플리케이션의 실행 화면 전체가 웹 페이지의 개념에 포함될 수 있다. 또한, 카메라 롤 중인 화면 역시 웹 페이지의 개념에 포함될 수 있다.
실시예에 따르면, 사용자 단말(500)은 로그 기록 및/또는 인게이지먼트 기록을 저장할 수 있다. 사용자 단말(500)은 저장된 로그 기록 및/또는 인게이지먼트 기록을 분석하여 컨텐츠를 추출할 수 있으며, 미리 저장되어 있는 레이블들 중에서 추출된 컨텐츠의 종류를 지시하는 레이블을 결정할 수 있다.
로그 기록은 사용자 단말(500)의 운영체제 또는 소프트웨어가 실행되고 있는 중에 발생되는 이벤트를 기록함으로써 생성될 수 있다.
인게이지먼트 기록은 사용자가 관심을 가지고, 참여하고, 관계를 맺는 일련의 약속된 행동을 하는 경우, 이러한 행동을 기록함으로써 생성될 수 있다. 인게이지먼트 기록은 사용자의 행동 정보는 사용자가 웹 브라우저를 통해 컨텐츠를 열람하는 것, 사용자가 소셜 네트워크를 통해 컨텐츠에 ‘좋아요’ 태그를 생성하는 것, 사용자가 웹 페이지에 등록된 상품의 이미지를 클릭하는 것, 웹 페이지에 등록된 상품을 관심 상품으로 등록하는 것, 웹 페이지에 등록된 상품의 옵션을 선택한 후 장바구니에 담는 것 등의 행위뿐만 아니라, 이러한 행위의 대상, 이러한 행위가 발생한 시각, 이러한 행위가 유지된 시간도 포함할 수 있다.
본 명세서에서 사용자의 행동 정보는 로그 기록 및/또는 인게이지먼트 기록 자체를 의미할 수도 있고, 로그 기록 및/또는 인게이지먼트 기록으로부터 추출된 일부 정보를 의미할 수도 있다. 또한 사용자의 행동 정보는 표시된 웹 페이지를 대상으로 사용자의 행위가 발생할 때마다, 또는 일정 시간 단위로, 또는 사용자의 명령이 입력되는 경우, 온라인 마켓 서버(400) 및/또는 커머스 영상 생성 서버(100)로 전송될 수도 있다.
미리 저장되어 있는 레이블들은 사용자의 행동 정보에 근거한, 컨텐츠의 의미를 나타내는 레이블들을 포함할 수 있다. 그 예로, 선호 컨텐츠인지를 지시하는 레이블(또는 사용자 관심 상품인지를 지시하는 레이블) 및 비선호 컨텐츠인지를 지시하는 레이블(또는 사용자 관심 상품이 아님을 지시하는 레이블)을 들 수 있다. 다른 실시예에 따르면, 미리 저장되어 있는 레이블들은 컨텐츠에 대한 사용자의 행위의 종류를 나타내는 레이블들을 포함할 수 있다. 그 예로, 사용자가 열람한 컨텐츠임을 지시하는 레이블, 사용자가 클릭한 컨텐츠임을 지시하는 레이블 및 사용자가 좋아요 태그를 생성한 컨텐츠임을 지시하는 레이블을 들 수 있다.
사용자 맞춤형 리뷰 영상 생성 서버(100)는 사용자의 행동 정보가 수신됨에 따라, 웹 페이지에 등록된 상품에 대한 피드백 데이터 및 미리 생성된 스크립트 데이터베이스를 기초로 해당 상품에 대한 스크립트를 생성할 수 있다. 여기서, 웹 페이지에 등록된 상품은 판매 대상인 아이템뿐 아니라 해당 아이템과 관련된 광고를 포함하는 것으로 이해될 수 있다. 상품에 대한 피드백 데이터는 상품에 대한 동영상 데이터, 이미지 데이터 및/또는 텍스트 데이터를 포함할 수 있다. 스크립트 데이터베이스는 키워드와 관련된 하나 이상의 속성 및 각 속성에 매칭되는 텍스트를 저장할 수 있다. 키워드와 관련된 하나 이상의 속성으로는 키워드에 해당하는 오브젝트의 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성, 오브젝트와 매칭되는 장면의 상황 속성 및 오브젝트와 매칭되는 장면의 하이라이트 속성을 예로 들 수 있다.
실시예에 따르면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 웹 페이지에 등록된 상품에 대한 피드백 데이터 중 텍스트 데이터를 단어 단위의 키워드로 분석할 수 있다. 그 다음, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 스크립트 데이터베이스에 저장되어 있는, 키워드와 관련된 하나 이상의 속성 중에서 사용자의 행동 정보를 기초로 결정된 속성과 매칭되는 텍스트를 이용하여 스크립트를 생성할 수 있다.
그 후, 사용자 맞춤형 리뷰 영상 생성 서버(100)는공백을 기준으로 스크립트의 텍스트로부터 단어들을 추출할 수 있다. 그리고, 미리 생성된 단어 별 빈도 값 데이터베이스를 기초로, 추출된 단어들의 빈도 값을 측정할 수 있다.
그런 다음, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 추출된 단어들 각각을 대상으로 형태소 분석을 실행하여 토큰들을 생성할 수 있다. 실시예에 따르면, 토큰은 단어와 형태소 값의 쌍을 포함할 수 있으며, 빈도 값을 지시하는 레이블이 할당될 수 있다. 예를 들어, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 (빈도 값: 1000, (단어, 형태소 값)), (빈도 값: 234, (단어, 형태소 값)), (빈도 값: 2541, (단어, 형태소 값)), (빈도 값: 2516, (단어, 형태소 값))와 같은 토큰들을 생성할 수 있다.
이후, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 각 토큰의 단어 및/또는 레이블에 따라, 각 토큰에 서로 다른 가중치를 부여할 수 있다. 일 실시예에 따르면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 토큰의 단어를 구현하는 언어의 종류(예: 영어, 중국어, 한국어 등), 스크립트의 텍스트 내에서의 단어의 위치 및/또는 토큰에 할당된 레이블이 지시하는 빈도 값에 따라, 각 토큰마다 서로 다른 가중치를 부여할 수 있다. 각 토큰마다 서로 다른 가중치를 부여하는 것에 대해서 좀 더 구체적으로 설명하면 다음과 같다.
먼저, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수 및 각 토큰의 순서를 이용하여 제1 가중치를 산출할 수 있다.
구체적으로, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수를 기준으로 현재 토큰의 순서를 수치화한 값 및 언어의 종류에 따라 미리 결정된 중요 값에 근거하여, 현재 토큰에 대한 제1 가중치를 산출할 수 있다. 예를 들어, 전체 토큰의 개수가 12개이고 토큰의 순서가 4번째인 경우, 12를 1로 가정하고, 1을 4로 나누어 '0.25'를 산출할 수 있다. 그리고 이렇게 산출된 값에, 언어의 종류에 따라 미리 결정된 중요 값을 반영하여 제1 가중치를 산출할 수 있다. 실시예에 따르면, 상기 중요 값은 현재 토큰의 순서에 따라 변경될 수 있다. 구체적으로, 중요한 단어가 문장의 말미에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값 역시 증가할 수 있다. 만약, 중요한 단어가 문장의 초반부에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값은 감소할 것이다.
그 다음, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 현재 토큰의 레이블이 지시하는 빈도 값, 이전 토큰의 레이블이 지시하는 빈도 값 및 다음 토큰의 레이블이 지시하는 빈도 값을 이용하여 현재 토큰에 대한 제2 가중치를 산출할 수 있다.
마지막으로, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 제1 가중치 및 제2 가중치를 이용하여 현재 토큰에 최종 가중치를 부여할 수 있다. 그리고 최종 가중치가 기준치 이상인 토큰들로 구성되는 키워드를 추출할 수 있다.
상술한 바와 같이 스크립트에서 키워드가 추출되면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 추출된 키워드에 근거하여, 미리 구축된 참조 영상 데이터베이스로부터 참조 영상을 추출할 수 있다. 참조 영상 데이터베이스 내의 참조 영상들에는 하나 이상의 태그가 할당된 상태일 수 있으며, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 추출된 키워드 및 참조 영상의 태그를 이용하여, 참조 장면 데이터베이스로부터 참조 장면을 추출할 수 있다.
우선, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 추출된 키워드와 참조 장면에 할당된 태그 간의 유사도 점수를 산출할 수 있다. 유사도 점수는 추출된 키워드와 참조 장면에 할당된 태그가 일치하는 정도를 점수로 표현한 것이다. 유사도 점수를 산출함에 있어서, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 참조 장면에 할당된 복수의 태그 중에서, 키워드를 구성하는 토큰의 형태소 값과 매칭되는 태그를 선택하고, 선택된 태그와 토큰의 단어를 비교하여 유사도 점수를 산출할 수 있다.
일 예로, 토큰의 형태소 값이 명사인 경우, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 참조 장면에 할당된 복수의 태그 중 오브젝트 속성를 선택할 수 있다. 그리고 오브젝트 속성 태그와 토큰의 각 단어 간의 유사도 점수를 산출할 수 있다. 다른 예로, 토큰의 형태소 값이 형용사인 경우, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 참조 장면에 할당된 복수의 태그 중 화면 속성 태그 및 상황 속성 태그를 선택할 수 있다. 그리고 화면 속성 태그와 토큰의 단어 간의 유사도 점수를 산출하고, 상황 속성 태그와 토큰의 단어 간의 유사도 점수를 산출할 수 있다. 유사도 점수 산출은 참조 장면 데이터베이스에 저장되어 있는 모든 참조 장면들을 대상으로 수행될 수 있다.
이후, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 유사도 점수가 특정 점수 이상인 태그가 할당된 참조 장면을 참조 장면 데이터베이스에서 추출할 수 있다.
상술한 바와 같이 참조 영상이 추출되면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 추출된 참조 장면과 미리 생된 환경 데이터를 합성하여 사용자 맞춤형 리뷰 영상 데이터를 생성할 수 있다. 이를 위해, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 시나리오에 따라 음향 데이터를 선택하고, 상기 시나리오에 해당하는 텍스트 데이터를 음성 데이터로 변환할 수 있다. 그리고, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 상기 시나리오에 따라 AI 배우를 생성할 수 있다.
이상, 사용자 맞춤형 리뷰 영상 생성 서버(100)가 웹 페이지에 등록된 상품과 관련된 사용자의 행동 정보 및 상품에 대한 피드백 데이터에 근거하여 사용자 맞춤형 리뷰 영상을 생성하는 전반적인 과정에 대해서 설명하였다. 이하에서는, 사용자 맞춤형 리뷰 영상 생성 서버(100)가 참조 장면 데이터베이스를 구축하는 전반적인 과정에 대해서 설명하기로 한다.
우선, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 웹 페이지에 등록된 상품에 대한 피드백 데이터를 수집할 수 있다. 그리고 수집된 피드백 데이터를 종류에 따라 분석하여 참조 장면을 생성할 수 있다. 상품에 대한 피드백 데이터는 동영상 데이터, 이미지 데이터 및/또는 텍스트 데이터를 포함할 수 있는데, 이들 중 동영상 데이터 및/또는 이미지 데이터가 참조 장면을 생성하는데 사용될 수 있다.
수집된 피드백 데이터가 동영상 데이터인 경우, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 동영상 데이터를 디코딩하여 동영상 데이터를 구성하는 프레임들을 획득한 다음, 재생 시간 간격으로 프레임을 샘플링할 수 있다.
이후, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 샘플링된 프레임들을 재생되는 시간 순서대로 나열하고, 서로 인접한 프레임들 간의 유사도를 산출할 수 있다. 나열된 모든 프레임들을 대상으로 유사도가 산출되면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 유사도에 근거하여 프레임들을 그룹핑함으로써, 장면 단위로 그룹핑된 복수의 참조 장면을 생성할 수 있다.
일 실시예에 따르면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 서로 인접한 프레임들을 대상으로 피쳐 매칭(Feature Matching)을 수행하여, 인접한 프레임들 간의 유사도를 연산할 수 있다. 구체적으로, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 서로 인접한 프레임들 간의 특징점(Keypoints)을 비교한 결과, 유사도가 기준치 이상인 경우, 해당 프레임들을 하나의 장면으로 그룹핑함으로써, 하나의 참조 장면을 생성할 수 있다. 만약, 서로 인접한 프레임들 간의 특징점을 비교한 결과, 유사도가 기준치 미만이라면, 장면이 전환된 것으로 판단할 수 있으며, 해당 프레임들을 각각 서로 다른 장면으로 그룹핑함으로써, 서로 다른 참조 영상을 생성할 수 있다.
다른 실시예에 따르면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 나열된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 개수의 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 그리고 추출된 오브젝트의 개수가 변화된 시점 또는 추출된 오브젝트의 개수가 기준치 이상으로 변화된 시점을 기준으로 참조 장면을 생성할 수 있다.
또 다른 실시예에 따르면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 서로 인접한 프레임들의 픽셀들 중 위치가 동일한 픽셀들 간의 픽셀 값 변화에 근거하여 배경 변화 여부를 판단하고, 판단 결과에 근거하여 장면 전환 여부를 판단할 수 있다. 그 다음, 배경이 변화된 시점을 기준으로 참조 장면을 생성할 수 있다.
또 다른 실시예에 따르면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 동영상 데이터를 구성하는 음성 데이터 및/또는 자막 데이터의 내용 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 그리고 음성 데이터 및/또는 자막 데이터에서 새로운 내용이 나타나는 시점을 기준으로 참조 장면을 생성할 수 있다.
또 다른 실시예에 따르면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 나열된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 종류의 변화에 근거하여 장면 전환 연부를 판단할 수 있다. 그리고 이전에 추출되었던 오브젝트가 사라지는 시점 및/또는 새로운 오브젝트가 나타나는 시점을 기준으로 참조 장면을 생성할 수 있다.
한편, 수집된 피드백 데이터가 이미지 데이터인 경우, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 이미지 데이터를 참조 장면으로 정의할 수 있다.
상술한 과정을 거쳐 피드백 데이터의 종류에 따른 참조 장면이 생성되면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 생성된 참조 장면들을 분석하여, 각 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보에 따라 서로 다른 종류의 태그를 각 참조 장면에 할당할 수 있다. 예를 들면, 추출된 특징 정보에 따라, 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그 중 하나를 각 참조 장면에 할당할 수 있다. 이하, 오브젝트 속성 태그를 할당하는 과정, 화면 속성 태그를 할당하는 과정 및 상황 속성 태그를 할당하는 과정을 차례로 설명한다.
오브젝트 속성 태그를 할당하기 위하여, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 참조 장면에서 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 특징 영역은, 오브젝트의 특징을 기술하는 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다. 특징 기술자는 기술자(Descriptor), 특징 벡터(Feature vectors) 또는 벡터 값 등으로 지칭될 수도 있으며, 오브젝트들 간의 동일 또는 유사 여부를 판단하는데 사용될 수 있다.
예를 들면, 특징 영역은 오브젝트가 포함하고 있는 윤곽선, 윤곽선 중에서도 코너 등의 모퉁이, 주변 영역과 구분되는 블롭(blob), 참조 장면의 변형에 따라 불변하거나 공변하는 영역, 및/또는 주변 밝기보다 어둡거나 밝은 특징이 있는 극점을 포함할 수 있다. 특징 영역은 참조 장면의 패치(조각) 또는 참조 장면 전체를 대상으로 할 수 있다.
참조 장면에서 오브젝트의 특징 영역을 탐지한 후, 커머스 영상 생성 서버(100)는 탐지된 특징 영역에서 오브젝트의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출한 후, 특징 기술자에 따라 참조 장면에 오브젝트 속성 태그를 할당할 수 있다.
화면 속성 태그를 할당하기 위하여, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 참조 장면의 특징 영역을 탐지하고 탐지된 특징 영역에서 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출한 후, 특징 기술자에 따라 참조 장면에 화면 속성 태그를 할당할 수 있다.
상술한 특징 기술자는 참조 장면에서 특징 영역의 위치, 특징 영역의 밝기, 색상, 선명도, 그라디언트, 스케일 및/또는 패턴 정보를 이용하여 계산할 수 있다. 예를 들어 특징 기술자는 특징 영역의 밝기 값, 밝기의 변화 값 및/또는 분포 값을 벡터로 변환하여 계산할 수 있다.
나아가, 특징 기술자는 상술한 바와 같은 특징 영역에 기반한 지역 기술자(Local Descriptor) 뿐 아니라, 전역 기술자(Global descriptor), 빈도 기술자(Frequency Descriptor), 바이너리 기술자(Binary Descriptor) 또는 신경망 기술자(Neural Network descriptor)로 표현될 수도 있다.
전역 기술자(Global descriptor)는 참조 장면의 전체, 참조 장면을 임의의 기준으로 분할한 구역 각각, 또는 특징 영역 각각의 밝기, 색상, 선명도, 그라디언트, 스케일 및/또는 패턴 정보를 벡터값으로 변환할 수 있다. 빈도 기술자 (Frequency Descriptor)는 미리 구분한 특징 기술자들이 참조 장면에 포함되는 횟수 및/또는 종래 정의된 색상표와 같은 전역적 특징을 포함하는 횟수를 벡터값으로 변환할 수 있다. 바이너리 기술자(Binary descriptor)는 각 기술자들의 포함 여부 및/또는 기술자를 구성하는 각 요소 값들의 크기가 특정값 보다 크거나 작은지 여부를 비트 단위로 추출한 뒤 이를 정수형으로 변환하여 사용할 수 있다. 신경망 기술자(Neural Network descriptor)는 신경망(Neural Network)의 레이어에서 학습 또는 분류를 위해 사용되는 영상 정보를 추출할 수 있다.
상황 속성 태그를 할당하기 위하여, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 참조 장면을 장면 종류 분석 모델이 적용시킬 수 있다. 장면 종류 분석 모델은 장면을 입력받아, 장면 종류를 출력하도록 학습된 모델을 의미할 수 있다. 장면 종류는 장면에서 표현되고 있는 상황의 종류를 의미할 수 있다. 장면 종류 분석 모델을 통해, 참조 장면에서 표현되고 있는 상황의 종류가 추출되면, 커머스 영상 생성 서버(100)는 추출된 상황의 종류에 따라 참조 장면에 상황 속성 태그를 할당할 수 있다.
실시예에 따르면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 장면 종류 분석 모델을 딥 러닝 모델(Deep Learning Model) 중 하나인 CNN(Convolution Neural Network) 모델로 구축하고, 상술한 데이터 셋을 학습할 수 있다. 이때, CNN 모델은 두 개의 컨볼루션 레이어, 렐루 레이어, 맥스 풀링 레이어 및 하나의 풀리 커넥티드 레이어를 포함하도록 설계될 수 있다. 나아가, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 RCNN 기법을 활용하여 CNN 모델에서 산출된 컨볼루션 피쳐 맵(Convolution Feature Maps)의 맵 순서대로 피쳐 시퀀스(Feature Sequence)를 구성한 후, 각 피쳐 시퀀스를 롱 숏 텀 메모리 네트워크(LSTM; Long Short Term Memory networks)에 대입하여 학습할 수 있다.
하이라이트 속성 태그를 할당하기 위하여, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 동영상 데이터에서 하이라이트 부분을 추출할 수 있다. 하이라이트 부분은 동영상 데이터에서 가장 중요한 정보를 포함하고 있는 구간을 의미할 수 있다. 예를 들어, 동영상 데이터의 내용이 기-승-전-결의 네 개의 구간으로 구성되는 경우, '전'에 해당하는 구간이 하이라이트 부분인 것으로 간주될 수 있다. 하이라이트 부분은 수동으로 추출될 수도 있고, 자동으로 추출될 수도 있다. 동영상 데이터의 하이라이트 부분이 추출되면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 하이라이트 부분에 해당하는 참조 장면에 하이라이트 속성 태그를 할당할 수 있다.
도 2는 본 개시의 일 실시예에 따른 사용자 맞춤형 리뷰 영상 생성 서버의 영상 생성 장치를 도시한 도면이다.
도 2를 참조하면, 사용자 맞춤형 리뷰 영상 생성 서버(100)의 영상 생성 장치(200)은 스크립트 생성부(210), 시나리오 생성부(220), 키워드 추출부(230) 및 참조 장면 데이터 추출부(240), 환경 데이터 생성부(250) 및 리뷰 영상 생성부(260)를 포함할 수 있다.
스크립트 생성부(210)는 사용자의 행동 정보가 수신됨에 따라, 웹 페이지에 등록된 상품에 대한 피드백 데이터 중 텍스트 데이터를 단어 단위의 키워드로 분석할 수 있다. 그 다음, 스크립트 생성부(210)는 스크립트 데이터베이스에 저장되어 있는, 키워드와 관련된 하나 이상의 속성 중에서 사용자의 행동 정보를 기초로 결정된 속성과 매칭되는 텍스트를 이용하여 스크립트를 생성할 수 있다.
구체적으로, 스크립트 생성부(210)는 피드백 데이터의 텍스트 데이터로부터 분석된 키워드를 스크립트 데이터베이스에서 검색한 다음, 검색된 키워드에 해당하는 오브젝트의 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성, 오브젝트와 매칭되는 장면의 상황 속성 및 오브젝트와 매칭되는 장면의 하이라이트 속성 중 중 사용자의 행동 정보를 기초로 결정된 속성과 매칭되는 텍스트를 이용하여 스크립트를 생성할 수 있다.
시나리오 생성부(220)는 스크립트 생성부(210)에 의해 생성된 스크립트를 기초로 기준 장면으로 구성된 시나리오를 생성할 수 있다. 실시예에 따르면, 시나리오는 기준 장면 외에도 음향 효과 및/또는 분위기를 더 포함할 수 있다.
키워드 추출부(230)는 스크립트 생성부(210)에 의해 생성된 스크립트에서 키워드를 추출할 수 있다. 보다 구체적으로, 키워드 추출부(230)는 공백을 기준으로 스크립트의 텍스트로부터 단어들을 추출할 수 있다. 그리고, 미리 생성된 단어 별 빈도 값 데이터베이스를 기초로, 추출된 단어들의 빈도 값을 측정할 수 있다.
그런 다음, 키워드 추출부(230)는 추출된 단어들 각각을 대상으로 형태소 분석을 실행하여 토큰을 생성할 수 있다. 실시예에 따르면, 토큰은 단어와 형태소 값의 쌍을 포함할 수 있으며, 빈도 값을 지시하는 레이블이 할당될 수 있다. 예를 들어, 키워드 추출부(230)는 (빈도 값: 1000, (단어, 형태소 값)), (빈도 값: 234, (단어, 형태소 값)), (빈도 값: 2541, (단어, 형태소 값)), (빈도 값: 2516, (단어, 형태소 값))와 같은 토큰들을 생성할 수 있다.
이후, 키워드 추출부(230)는 각 토큰의 단어 및/또는 레이블에 따라, 각 토큰에 서로 다른 가중치를 부여할 수 있다. 일 실시예에 따르면, 키워드 추출부(230)는 토큰의 단어를 구현하는 언어의 종류(예: 영어, 중국어, 한국어 등), 스크립트의 텍스트 내에서의 단어의 위치 및/또는 토큰에 할당된 레이블이 지시하는 빈도 값에 따라, 각 토큰마다 서로 다른 가중치를 부여할 수 있다. 각 토큰마다 서로 다른 가중치를 부여하는 것에 대해서 좀 더 구체적으로 설명하면 다음과 같다.
먼저, 키워드 추출부(230)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수 및 각 토큰의 순서를 이용하여 제1 가중치를 산출할 수 있다.
구체적으로, 키워드 추출부(230)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수를 기준으로 현재 토큰의 순서를 수치화한 값 및 언어의 종류에 따라 미리 결정된 중요 값에 근거하여, 현재 토큰에 대한 제1 가중치를 산출할 수 있다. 예를 들어, 키워드 추출부(230)는 전체 토큰의 개수가 12개이고 토큰의 순서가 4번째인 경우, 12를 '1'로 기정하고, 1을 4로 나누어 '0.25'를 산출할 수 있다. 그리고 이렇게 산출된 값에, 언어의 종류에 따라 미리 결정된 중요 값을 반영하여 제1 가중치를 산출할 수 있다. 실시예에 따르면, 상기 중요 값은 현재 토큰의 순서에 따라 변경될 수 있다. 구체적으로, 중요한 단어가 문장의 말미에 나타나는 언어라면, 현재 토컨의 순서가 높아질수록 반영되는 중요 값 역시 증가할 수 있다. 만약, 중요한 단어가 문장의 초반부에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값은 감소할 것이다.
그 다음, 키워드 추출부(230)는 현재 토큰의 레이블이 지시하는 빈도 값, 이전 토큰의 레이블이 지시하는 빈도 값 및 다음 토큰의 레이블이 지시하는 빈도 값을 이용하여 제2 가중치를 산출할 수 있다.
마지막으로, 키워드 추출부(240)는 제1 가중치 및 제2 가중치를 이용하여 현재 토큰에 최종 가중치를 부여할 수 있다. 그리고 최종 가중치가 부여된 토큰들로 구성되는 키워드를 추출할 수 있다.
참조 장면 추출부(240)는 키워드 추출부(240)에 의해 추출된 키워드와 참조 장면에 할당된 태그 간의 유사도 점수를 산출할 수 있다. 유사도 점수는 추출된 키워드와 참조 장면에 할당된 태그가 일치하는 정도를 점수로 표현한 것이다. 유사도 점수를 산출함에 있어서, 참조 장면 추출부(240)는 참조 장면에 할당된 복수의 태그 중에서, 키워드를 구성하는 토큰의 형태소 값과 매칭되는 태그를 선택하고, 선택된 태그와 토큰의 단어를 비교하여 유사도 점수를 산출할 수 있다.
일 예로, 토큰의 형태소 값이 명사인 경우, 참조 장면 추출부(240)는 참조 장면에 할당된 복수의 태그 중 오브젝트 속성 태그를 선택할 수 있다. 그리고 오브젝트 속성 태그와 토큰의 간어 간의 유사도 점수를 산출할 수 있다. 다른 예로, 토큰의 형태소 값이 형용사인 경우, 참조 장면 추출부(240)는 참조 장면에 할당된 복수의 태그 중 화면 속성 태그 및 상황 속성 태그를 선택할 수 있다. 그리고 화면 속성 태그와 토큰의 단어 간의 유사도 점수를 산출하고, 상황 속성 태그와 토큰의 단어 간의 유사도 점수를 산출할 수 있다. 유사도 점수 산출은 참조 장면 데이터베이스에 저장되어 있는 모든 참조 장면들을 대상으로 수행될 수 있다. 이후, 참조 장면 추출부(240)는 유사도 점수가 특정 점수 이상인 태그가 할당된 참조 장면을 참조 장면 데이터베이스에서 추출할 수 있다.
환경 데이터 생성부(250)는 시나리오에 따라 음향 데이터를 선택할 수 있다. 그리고 환경 데이터 생성부(250)는 상기 시나리오에 해당하는 텍스트 데이터를 음성 데이터로 변환할 수 있다. 나아가, 환경 데이터 생성부(250)는 상기 시나리오에 따라 AI 배우를 생성할 수 있다.
리뷰 영상 생성부(260)는 참조 장면 추출부(240)에 의해 추출된 참조 장면 및 환경 데이터 생성부(250)에 의해 생성된 환경 데이터를 합성하여 리뷰 영상을 생성할 수 있다.
도 3은 본 개시의 일 실시예에 따른 사용자 맞춤형 리뷰 영상 생성 서버의 참조 영상 제공 장치를 도시한 도면이다.
도 3의 참조 영상 제공 장치(300)는 참조 장면 데이터베이스(330)를 구축할 수 있으며, 참조 장면 데이터베이스(330)에서 추출된 참조 장면을 영상 생성 장치(200)로 제공할 수 있다. 이를 위해 참조 장면 제공 장치(300)는 참조 장면 데이터베이스 구축부(310), 태그 할당부(320) 및 참조 장면 데이터베이스(330)를 포함할 수 있다.
참조 장면 데이터베이스 구축부(310)는 웹 페이지에 등록된 상품에 대한 사용자의 피드백 데이터를 수집할 수 있다. 이후, 참조 장면 데이터베이스 구축부(310)는 수집된 피드백 데이터를 종류에 따라 분석하여 참조 장면을 생성할 수 있다. 상품에 대한 피드백 데이터는 동영상 데이터, 이미지 데이터 및/또는 텍스트 데이터를 포함할 수 있는데, 이들 중 동영상 데이터 및/또는 이미지 데이터가 참조 장면을 생성하는데 사용될 수 있다.
수집된 리뷰 데이터가 동영상 데이터인 경우, 참조 장면 데이터베이스 구축부(310)는 동영상 데이터를 디코디하여 동영상 데이터를 구성하는 프레임들을 획득한 다음, 재생 시간 간격으로 프레임을 샘플링할 수 있다.
이후, 참조 장면 데이터베이스 구축부(310)는 샘플링된 프레임들을 재생되는 시간 순서대로 나열하고, 서로 인접합 프레임들 간의 유사도를 산출할 수 있다. 나열된 모든 프레임들을 대상으로 유사도가 산출되면, 참조 장면 데이터베이스 구축부(310)는 유사도에 근거하여 프레임들을 그룹핑함으로써, 장면 단위의 복수의 참조 장면을 생성할 수 있다.
일 실시예에 따르면, 참조 장면 데이터베이스 구축부(310)는 서로 인접한 프레임들을 대상으로 피쳐 매칭(Feature Matching)을 수행하여, 인접한 프레임들 간의 유사도를 연산할 수 있다. 구체적으로, 서로 인접한 프레임들 간의 특징점(Keypoints)을 비교한 결과, 유사도가 기준치 이상인 경우, 참조 장면 데이터베이스 구축부(310)는 해당 프레임들을 하나의 장면으로 그룹핑함으로써, 하나의 참조 장면을 생성할 수 있다. 만약, 서로 인접한 프레임들 간의 특징점을 비교한 결과, 유사도가 기준치 미만이라면, 참조 장면 데이터베이스 구축부(310)는 장면이 전환된 것으로 판단할 수 있으며, 해당 프레임들을 각각 서로 다른 장면으로 그룹핑함으로써, 서로 다른 참조 영상을 생성할 수 있다.
다른 실시예에 따르면, 참조 장면 데이터베이스 구축부(310)는 나열된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 개수의 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 그리고 추출된 오브젝트의 개수가 변화된 시점 또는 추출된 오브젝트의 개수가 기준치 이상으로 변화된 시점을 기준으로 참조 장면을 생성할 수 있다.
또 다른 실시예에 따르면, 참조 장면 데이터베이스 구축부(310)는 서로 인접한 프레임들의 픽셀들 중 위치가 동일한 픽셀들 간의 픽셀 값 변화에 근거하여 배경 변화 여부를 판단하고, 판단 결과에 근거하여 장면 전환 여부를 판단할 수 있다. 그 다음, 배경이 변화된 시점을 기준으로 참조 장면을 생성할 수 있다.
또 다른 실시예에 따르면, 참조 장면 데이터베이스 구축부(310)는 동영상을 구성하는 음성 데이터 및/또는 자막 데이터의 내용 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 그리고 음성 데이터 및/또는 자막 데이터에서 새로운 내용이 나타나는 시점을 기준으로 참조 장면을 생성할 수 있다.
또 다른 실시예에 따르면, 참조 장면 데이터베이스 구축부(310)는 나열된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 종류의 변화에 근거하여 장면 전환 연부를 판단할 수 있다. 그리고 이전에 추출되었던 오브젝트가 사라지는 시점 및/또는 새로운 오브젝트가 나타나는 시점을 기준으로 참조 장면을 생성할 수 있다.
한편, 수집된 리뷰 데이터의 종류가 이미지 데이터인 경우, 참조 장면 데이터베이스 구축부(310)는 이미지 데이터를 참조 장면으로 정의할 수 있다.
태그 할당부(320)는 생성된 참조 장면들을 분석하여, 각 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보에 따라 서로 다른 종류의 태그를 각 참조 장면에 할당할 수 있다. 예를 들면, 추출된 특징 정보에 따라, 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그 중 하나를 할당할 수 있다.
오브젝트 속성 태그를 할당하기 위하여, 태그 할당부(320)는 참조 장면에서 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 특징 영역은, 오브젝트의 특징을 기술하는 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다. 특징 기술자는 기술자(Descriptor), 특징 벡터(Feature vectors) 또는 벡터 값 등으로 지칭될 수도 있으며, 오브젝트들 간의 동일 또는 유사 여부를 판단하는데 사용될 수 있다.
예를 들면, 특징 영역은 오브젝트가 포함하고 있는 윤곽선, 윤곽선 중에서도 코너 등의 모퉁이, 주변 영역과 구분되는 블롭(blob), 참조 장면의 변형에 따라 불변하거나 공변하는 영역, 및/또는 주변 밝기보다 어둡거나 밝은 특징이 있는 극점을 포함할 수 있다. 특징 영역은 참조 장면의 패치(조각) 또는 참조 장면의 전체를 대상으로 할 수 있다.
참조 장면에서 오브젝트의 특징 영역을 탐지한 후, 태그 할당부(320)는 탐지된 특징 영역에서 오브젝트의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 오브젝트 속성 태그를 할당할 수 있다.
화면 속성 태그를 할당하기 위하여, 태그 할당부(320)는 참조 장면의 특징 영역을 탐지할 수 있다. 그리고 탐지된 참조 장면의 특징 영역에서 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 화면 속성 태그를 할당할 수 있다.
상술한 특징 기술자는 참조 장면에서 특징 영역의 위치, 특징 영역의 밝기, 색상, 선명도, 그라디언트, 스케일 및/또는 패턴 정보를 이용하여 계산할 수 있다. 예를 들어 특징 기술자는 특징 영역의 밝기 값, 밝기의 변화 값 및/또는 분포 값을 벡터로 변환하여 계산할 수 있다.
상황 속성 태그를 할당하기 위하여, 태그 할당부(320)는 참조 장면을 장면 종류 분석 모델에 적용시킬 수 있다. 장면 종류 분석 모델은 장면을 입력받아, 장면 종류를 출력하도록 학습된 모델을 의미할 수 있다. 장면 종류는 장면에서 표현되고 있는 상황의 종류를 의미할 수 있다. 장면 종류 분석 모델을 통해, 참조 장면에서 표현되고 있는 상황의 종류가 추출되면, 태그 할당부(320)는 추출된 상황의 종류에 따라 참조 장면에 상황 속성 태그를 할당할 수 있다.
실시예에 따르면, 태그 할당부(320)는 장면 종류 분석 모델을 딥 러닝 모델(Deep Learning Model) 중 하나인 CNN(Convolution Neural Network) 모델로 구축하고, 상술한 데이터 셋을 학습할 수 있다. 이때, CNN 모델은 두 개의 컨볼루션 레이어, 렐루 레이어, 맥스 풀링 레이어 및 하나의 풀리 커넥티드 레이어를 포함하도록 설계될 수 있다. 나아가, 태그 할당부(320)는 RCNN 기법을 활용하여 CNN 모델에서 산출된 컨볼루션 피쳐 맵(Convolution Feature Maps)의 맵 순서대로 피쳐 시퀀스(Feature Sequence)를 구성한 후, 각 피쳐 시퀀스를 롱 숏 텀 메모리 네트워크(LSTM; Long Short Term Memory networks)에 대입하여 학습할 수 있다.
하이라이트 속성 태그를 할당하기 위하여, 태그 할당부(320)는 동영상 데이터에서 하이라이트 부분을 추출할 수 있다. 하이라이트 부분은 동영상 데이터에서 가장 중요한 정보를 포함하고 있는 구간을 의미할 수 있다. 예를 들어, 동영상 데이터의 내용이 기-승-전-결의 네 개의 구간으로 구성되는 경우, '전'에 해당하는 구간이 하이라이트 부분인 것으로 간주될 수 있다. 하이라이트 부분은 수동으로 추출될 수도 있고, 자동으로 추출될 수도 있다. 동영상 데이터의 하이라이트 부분이 추출되면, 태그 할당부(320)는 하이라이트 부분에 해당하는 참조 장면에 하이라이트 속성 태그를 할당할 수 있다.
태그 할당부(320)에 의해 태그가 할당된 참조 영상은 참조 장면 데이터베이스(330)에 저장될 수 있다. 실시예에 따르면, 참조 장면 데이터베이스(330)에는 참조 장면의 시작 시간, 참조 장면의 종료 시간 및 참조 장면에 할당된 하나 이상의 태그들이 테이블 형식으로 저장될 수 있다.
도 4는 본 개시의 일 실시예에 따른 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법을 도시한 순서도이다.
도 4를 참조하면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 사용자 단말(500)로부터 웹 페이지에 대한 사용자의 행동 정보가 수신됨에 따라, 웹 페이지에 등록된 상품에 대한 피드백 데이터 및 미리 생성된 스크립트 데이터베이스를 기초로 해당 상품에 대한 스크립트를 생성할 수 있다(S410). 여기서, 웹 페이지에 등록된 상품은 판매 대상인 아이템뿐 아니라 해당 아이템과 관련된 광고를 포함하는 것으로 이해될 수 있다. 상품에 대한 피드백 데이터는 동영상 데이터, 이미지 데이터 및/또는 텍스트 데이터를 포함할 수 있는데, 이들 중 텍스트 데이터가 스크립트 생성에 사용될 수 있다.
S410 단계 이후, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 스크립트를 기초로 시나리오를 생성하고 스크립트에서 키워드를 추출할 수 있다(S420). 상기 S420 단계는 스크립트를 기초로 시나리오를 생성하는 단계 및 스크립트를 기초로 키워드를 추출하는 단계를 포함할 수 있다.
S420 단계 중 스크립트를 기초로 시나리오를 생성하는 단계는, 시나리오에 따른 환경 데이터를 생성하는 단계를 더 포함할 수 있다. 환경 데이터는 음향 데이터, 음성 데이터 및/또는 AI 배우를 포함할 수 있다. 시나리오에 따른 음향 데이터는 기 저장되어 있는 음향 데이터 중에서 선택될 수 있다. 시나리오에 따른 음성 데이터는 시나리오에 따른 텍스트 데이터를 변환하여 얻을 수 있다.
S420 단계 중 스크립트를 기초로 키워드를 추출하는 단계는, 공백을 기준으로 스크립트의 텍스트로부터 단어들을 추출하는 단계, 미리 생성된 단어별 빈도 값 데이터베이스를 기초로, 추출된 단어들의 빈도 값을 측정하는 단계, 추출된 단어들 각각을 대상으로 형태소 분석을 실행하여 토큰들을 생성하는 단계, 각 토큰의 단어 및/또는 각 토큰의 레이블에 따라 각 토큰에 서로 다른 가중치를 부여하는 단계, 및 가중치가 기준치 이상인 토큰의 단어를 키워드로 추출하는 단계를 포함할 수 있다.
S420 단계 이후, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 웹 페이지에 등록된 상품의 피드백 데이터를 이용하여 생성된 참조 영상들 중 키워드와 매칭되는 태그가 할당되어 있는 참조 영상을 참조 장면 데이터베이스(330)에서 추출할 수 있다(S430). 상기 S430 단계는 키워드를 구성하는 토큰의 형태소 값에 근거하여, 각 참조 장면에 할당되어 있는 복수의 태그 중 특정 태그를 선택하는 단계, 선택된 태그와 토큰 간의 유사도 점수를 산출하는 단계, 및 유사도 점수가 특정 점수 이상인 태그가 할당된 참조 장면을 참조 장면 데이터베이스에서 추출하는 단계를 포함할 수 있다.
일 실시예에 따르면, S430 단계는, 키워드를 구성하는 토큰의 형태소 값이 명사인 경우, 각 참조 장면에 할당되어 있는 복수의 태그 중 오브젝트 속성 태그를 선택하는 단계, 선택된 오브젝트 속성 태그와 토큰 간의 유사도 점수를 산출하는 단계, 및 유사도 점수가 특정 점수 이상인 오브젝트 속성 태그가 할당되어 있는 참조 영상을 참조 장면 데이터베이스에서 추출하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 상기 S430 단계는, 키워드를 구성하는 토큰의 형태소 값이 형용사인 경우, 각 참조 장면에 할당되어 있는 복수의 태그 중 화면 속성 태그 및 상황 속성 태그를 선택하는 단계, 선택된 화면 속성 태그와 토큰 간의 유사도 점수를 산출하는 단계, 선택된 상황 속성 태그와 토큰 간의 유사도 점수를 산출하는 단계, 유사도 점수가 특정 점수 이상인 화면 속성 태그가 할당되어 있는 참조 영상 및 유사도 점수가 특정 점수 이상인 상황 속성 태그가 할당되어 있는 참조 영상을 참조 영상 데이터베이스에서 추출하는 단계를 포함할 수 있다.
상기 S430 단계 이후, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 S420 단계에서 시나리오에 따라 미리 생성된 환경 데이터 및 S430 단계에서 추출된 참조 영상을 합성하여 사용자 맞춤형 리뷰 영상을 생성할 수 있다(S440).
도 5는 본 개시의 일 실시예에 따른 참조 영상 데이터베이스 구축 방법을 도시한 순서도이다.
도 5를 참조하면, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 웹 페이지에 등록된 상품에 대한 피드백 데이터를 수집할 수 있다(단계 S510). 상품에 대한 피드백 데이터는 동영상 데이터, 이미지 데이터 및/또는 텍스트 이미지를 포함할 수 있는데, 이들 중 동영상 데이터 및/또는 이미지 데이터가 참조 장면을 생성하는데 사용될 수 있다.
S510 단계 이후, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 수집된 리뷰 데이터 중 동영상 데이터를 디코딩하여 동영상 데이터를 구성하는 프레임들을 획득하고, 재생 시간 간격으로 프레임을 샘플링할 수 있다 (S520).
S520 단계 이후, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 샘플링된 프레임들을 장면 단위로 그룹핑하여 복수의 참조 장면을 생성할 수 있다(S530). 상기 S530 단계에서, 장면 전환 여부를 판단하는 기준으로는, 서로 인접한 프레임들 간의 유사도, 서로 인접한 프레임들에서 추출된 오브젝트의 개수 변화, 서로 인접한 프레임들에서 추출된 오브젝트의 종류의 변화, 서로 인접한 프레임들 간의 배경 변화 여부, 그리고 음성 데이터 및/또는 자막 데이터의 내용 변화를 예로 들 수 있다.
S530 단계 이후, 사용자 맞춤형 리뷰 영상 생성 서버(100)는 각 참조 장면의 특징 정보를 추출하고, 추출된 특징 정보에 따라 하나 이상의 태그를 할당할 수 있다(단계 S540). 각 참조 장면에 할당될 수 있는 태그로는 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및/또는 하이라이트 속성 태그를 예로 들 수 있다.
본 개시의 일 실시예에 따르면, 사용자 맞춤형 리뷰 영상 생성 서버(100)의 다양한 동작들을 위한 프로그램은 커머스 영상 생성 서버(100)의 메모리에 저장될 수 있다. 사용자 맞춤형 리뷰 영상 생성 서버(100)의 프로세서는 메모리에 저장된 프로그램을 로딩하여 실행할 수 있다. 프로세서는 하드웨어나 소프트웨어 또는 이들의 조합에 따라 AP(Application Processor), CPU(Central Processing Unit), MCU(Microcontroller Unit)나 이와 유사한 장치로 구현될 수 있다. 이때, 하드웨어적으로는 전기적 신호를 처리하여 제어 기능을 수행하는 전자 회로 형태로 제공될 수 있으며, 소프트웨어적으로는 하드웨어적 회로를 구동시키는 프로그램이나 코드 형태로 제공될 수 있다.
한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.
컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록매체를 포함한다. 예를 들어, ROM(read only memory), RAM(random access memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.
또한, 컴퓨터가 읽을 수 있는 기록매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 기록 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트폰들) 간에 직접 배포되거나, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 기록 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상에서 실시 형태들에 설명된 특징, 구조, 효과 등은 본 개시의 적어도 하나의 실시 형태에 포함되며, 반드시 하나의 실시 형태에만 한정되는 것은 아니다. 나아가, 각 실시 형태에서 예시된 특징, 구조, 효과 등은 실시 형태들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시 형태들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 개시의 범위에 포함되는 것으로 해석되어야 할 것이다.
또한, 이상에서 실시 형태를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 개시를 한정하는 것이 아니며, 본 개시가 속하는 분야의 통상의 지식을 가진 자라면 본 실시 형태의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 즉, 실시 형태에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 개시의 범위에 포함되는 것으로 해석되어야 할 것이다.
상술한 바와 같은 리뷰 데이터를 이용한 커머스 영상 생성 방법 및 서버는 영상 제작 분야에 적용될 수 있다.
Claims (8)
- 웹 페이지에 대한 사용자의 행동 정보가 수신됨에 따라 상기 사용자의 행동 정보를 기초로 사용자 관심 상품을 결정하고, 상기 사용자 관심 상품에 대한 사용자의 피드백 데이터를 수집하는 단계;상기 수집된 피드백 데이터를 종류에 따라 분석하여 참조 장면들을 생성하는 단계;상기 참조 장면들 각각으로부터 추출된 특징 정보에 따라 상기 참조 장면들 각각에 하나 이상의 태그를 할당하는 단계 -상기 하나 이상의 태그는 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그를 포함함-;상기 사용자 관심 상품에 대한 피드백 데이터 및 미리 생성된 스크립트 데이터베이스를 기초로 상기 사용자 관심 상품에 대한 스크립트를 생성하는 단계;상기 참조 영상들 중 상기 스크립트에서 추출된 키워드와 매칭되는 태그가 할당되어 있는 참조 영상을 추출하는 단계; 및상기 추출된 참조 영상을 이용하여 사용자 맞춤형 리뷰 영상을 생성하는 단계;를 포함하는,피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법.
- 제1항에 있어서,상기 참조 장면들을 생성하는 단계는,상기 수집된 피드백 데이터 중 동영상 데이터를 디코딩하여 프레임들을 획득하고, 재생 시간 간격으로 프레임들을 샘플링하는 단계; 및상기 샘플링된 프레임들을 장면 단위로 그룹핑하여 상기 참조 영상들을 생성하는 단계;를 포함하는,피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법.
- 제1항에 있어서,상기 스크립트 데이터베이스는,키워드와 관련된 하나 이상의 속성 및 각 속성에 매칭되는 텍스트를 저장하되, 상기 하나 이상의 속성은 상기 키워드에 해당하는 오브젝트의 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성, 오브젝트와 매칭되는 장면의 상황 속성 및 오브젝트와 매칭되는 장면의 하이라이트 속성을 포함하고,상기 스크립트를 생성하는 단계는,상기 수집된 피드백 데이터 중 텍스트 데이터를 단어 단위의 키워드로 분석하는 단계;상기 스크립트 데이터베이스를 참조하여, 상기 분석된 키워드에 대응하는 하나 이상의 속성을 결정하는 단계; 및상기 결정된 하나 이상의 속성과 매칭되는 텍스트를 이용하여 상기 스크립트를 생성하는 단계를 포함하는,피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법.
- 제1항에 있어서,상기 참조 영상을 추출하는 단계는,공백을 기준으로 상기 스크립트의 텍스트로부터 단어들을 추출하는 단계;미리 생성된 단어별 빈도 값 데이터베이스를 기초로, 상기 추출된 단어들의 빈도 값을 측정하는 단계;상기 추출된 단어들을 대상으로 형태소 분석을 실행하여 토큰을 생성하는 단계 -상기 토큰은 단어와 형태소 값의 쌍을 포함하며, 상기 단어의 빈도 값을 지시하는 레이블이 할당됨-;각 토큰의 단어 및 각 토큰의 레이블에 따라, 상기 각 토큰의 단어에 서로 다른 가중치를 부여하는 단계;상기 부여된 가중치가 기준치 이상인 토큰의 단어를 상기 키워드로 추출하는 단계; 상기 키워드를 구성하는 토큰의 형태 소 값에 근거하여, 상기 참조 영상들 각각에 할당되어 있는 하나 이상의 태그 중 특정 태그를 선택하는 단계;상기 선택된 태그와 상기 키워드를 구성하는 토큰 간의 유사도 점수를 산출하는 단계; 및상기 참조 영상들 중 상기 유사도 점수가 특정 점수 이상인 태그가 할당되어 있는 참조 장면을 추출하는 단계를 포함하는,피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법.
- 하나 이상의 프로세서; 및상기 하나 이상의 프로세서로 하여금 동작들(Operatioins)을 실행하도록 구성된 명령어들(Instructions)을 포함하는 메모리;를 포함하되,상기 동작들은,웹 페이지에 대한 사용자의 행동 정보가 수신됨에 따라 상기 사용자의 행동 정보를 기초로 사용자 관심 상품을 결정하고, 상기 사용자 관심 상품에 대한 사용자의 피드백 데이터를 수집하는 것;상기 수집된 피드백 데이터를 종류에 따라 분석하여 참조 장면들을 생성하는 것;상기 참조 장면들 각각으로부터 추출된 특징 정보에 따라 상기 참조 장면들 각각에 하나 이상의 태그를 할당하는 것 -상기 하나 이상의 태그는 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그를 포함함-;상기 사용자 관심 상품에 대한 피드백 데이터 및 미리 생성된 스크립트 데이터베이스를 기초로 상기 사용자 관심 상품에 대한 스크립트를 생성하는 것;상기 참조 영상들 중 상기 스크립트에서 추출된 키워드와 매칭되는 태그가 할당되어 있는 참조 영상을 추출하는 것; 및상기 추출된 참조 영상을 이용하여 사용자 맞춤형 리뷰 영상을 생성하는 것;을 포함하는,피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 서버.
- 제5항에 있어서,상기 참조 장면들을 생성하는 것은,상기 수집된 피드백 데이터 중 동영상 데이터를 디코딩하여 프레임들을 획득하고, 재생 시간 간격으로 프레임들을 샘플링하는 것; 및상기 샘플링된 프레임들을 장면 단위로 그룹핑하여 상기 참조 영상들을 생성하는 것;을 포함하는,피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 서버.
- 제5항에 있어서,상기 스크립트 데이터베이스는,키워드와 관련된 하나 이상의 속성 및 각 속성에 매칭되는 텍스트를 저장하되, 상기 하나 이상의 속성은 상기 키워드에 해당하는 오브젝트의 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성, 오브젝트와 매칭되는 장면의 상황 속성 및 오브젝트와 매칭되는 장면의 하이라이트 속성을 포함하고,상기 스크립트를 생성하는 것은,상기 수집된 피드백 데이터 중 텍스트 데이터를 단어 단위의 키워드로 분석하는 것;상기 스크립트 데이터베이스를 참조하여, 상기 분석된 키워드에 대응하는 하나 이상의 속성을 결정하는 것; 및상기 결정된 하나 이상의 속성과 매칭되는 텍스트를 이용하여 상기 스크립트를 생성하는 것;을 포함하는,피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 서버.
- 제5항에 있어서,상기 참조 영상을 추출하는 것은,공백을 기준으로 상기 스크립트의 텍스트로부터 단어들을 추출하는 것;미리 생성된 단어별 빈도 값 데이터베이스를 기초로, 상기 추출된 단어들의 빈도 값을 측정하는 것;상기 추출된 단어들을 대상으로 형태소 분석을 실행하여 토큰을 생성하는 것 -상기 토큰은 단어와 형태소 값의 쌍을 포함하며, 상기 단어의 빈도 값을 지시하는 레이블이 할당됨-;각 토큰의 단어 및 각 토큰의 레이블에 따라, 상기 각 토큰의 단어에 서로 다른 가중치를 부여하는 것;상기 부여된 가중치가 기준치 이상인 토큰의 단어를 상기 키워드로 추출하는 단계; 상기 키워드를 구성하는 토큰의 형태 소 값에 근거하여, 상기 참조 영상들 각각에 할당되어 있는 하나 이상의 태그 중 특정 태그를 선택하는 것;상기 선택된 태그와 상기 키워드를 구성하는 토큰 간의 유사도 점수를 산출하는 것; 및상기 참조 영상들 중 상기 유사도 점수가 특정 점수 이상인 태그가 할당되어 있는 참조 장면을 추출하는 것;을 포함하는,피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 서버.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220154975A KR20240074032A (ko) | 2022-11-18 | 2022-11-18 | 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법 및 이를 실행하는 서버 |
KR10-2022-0154975 | 2022-11-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024107000A1 true WO2024107000A1 (ko) | 2024-05-23 |
Family
ID=91084998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2023/018536 WO2024107000A1 (ko) | 2022-11-18 | 2023-11-17 | 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법 및 서버 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20240074032A (ko) |
WO (1) | WO2024107000A1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102264258B1 (ko) * | 2020-11-19 | 2021-06-14 | 주식회사 자란다 | 맞춤형 상품 추천 방법 |
KR20210118566A (ko) * | 2020-03-23 | 2021-10-01 | 윤종식 | 동영상을 추천하기 위한 방법 및 시스템 |
KR20220005328A (ko) * | 2020-07-06 | 2022-01-13 | 아주대학교산학협력단 | 사용자 행동 패턴에 기초하여 상품을 추천하고 추천 상품에 대한 사용자의 선호도 예측 장치 및 방법 |
KR20220023734A (ko) * | 2021-05-26 | 2022-03-02 | 주식회사 파켓 | 사용자 맞춤형 상품 정보 제공 장치 |
KR102451579B1 (ko) * | 2021-07-29 | 2022-10-17 | 더올마이티 주식회사 | Sns 게시물의 타입에 따라 사용자 맞춤형 광고를 제공하기 위한 온라인 광고 방법 및 시스템 |
-
2022
- 2022-11-18 KR KR1020220154975A patent/KR20240074032A/ko not_active Application Discontinuation
-
2023
- 2023-11-17 WO PCT/KR2023/018536 patent/WO2024107000A1/ko unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210118566A (ko) * | 2020-03-23 | 2021-10-01 | 윤종식 | 동영상을 추천하기 위한 방법 및 시스템 |
KR20220005328A (ko) * | 2020-07-06 | 2022-01-13 | 아주대학교산학협력단 | 사용자 행동 패턴에 기초하여 상품을 추천하고 추천 상품에 대한 사용자의 선호도 예측 장치 및 방법 |
KR102264258B1 (ko) * | 2020-11-19 | 2021-06-14 | 주식회사 자란다 | 맞춤형 상품 추천 방법 |
KR20220023734A (ko) * | 2021-05-26 | 2022-03-02 | 주식회사 파켓 | 사용자 맞춤형 상품 정보 제공 장치 |
KR102451579B1 (ko) * | 2021-07-29 | 2022-10-17 | 더올마이티 주식회사 | Sns 게시물의 타입에 따라 사용자 맞춤형 광고를 제공하기 위한 온라인 광고 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR20240074032A (ko) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2024091080A1 (ko) | 동영상 자동 생성 방법 및 동영상 자동 생성 서버 | |
WO2020080606A1 (ko) | 비디오 메타데이터와 스크립트 데이터를 활용한 비디오 컨텐츠 통합 메타데이터 자동 생성 방법 및 시스템 | |
WO2018135881A1 (en) | Vision intelligence management for electronic devices | |
WO2018174637A1 (ko) | 방송에서의 영상인식을 통한 실시간 쇼핑방법 및 이를 구현하는 애플리케이션이 설치된 스마트 기기 | |
CN108509611B (zh) | 用于推送信息的方法和装置 | |
WO2018097379A1 (ko) | 영상 인식에 의한 해시태그 삽입방법 및 그 방법을 수행하는 소프트웨어가 저장된 소프트웨어 분배 서버 | |
WO2010119996A1 (ko) | 동영상 관련 광고를 제공하는 방법 및 그 장치 | |
CN108197336B (zh) | 一种视频查找的方法及装置 | |
WO2024091084A1 (ko) | 동영상 자동 생성을 위한 참조 장면 추천 방법 및 참조 장면 추천 장치 | |
CN115061679B (zh) | 离线rpa元素拾取方法及系统 | |
WO2022028177A1 (zh) | 信息推送、视频处理方法和设备 | |
CN112820071A (zh) | 一种行为识别方法和装置 | |
CN104102683A (zh) | 用于增强视频显示的上下文查询 | |
EP3942510A1 (en) | Method and system for providing personalized multimodal objects in real time | |
WO2021085812A1 (ko) | 전자장치 및 그 제어방법 | |
WO2012118259A1 (ko) | 이미지에 기반한 동영상 관련 서비스 제공 시스템 및 방법 | |
Jin et al. | Network video summarization based on key frame extraction via superpixel segmentation | |
WO2024107000A1 (ko) | 피드백 데이터를 이용한 사용자 맞춤형 리뷰 영상 생성 방법 및 서버 | |
WO2012070766A2 (ko) | 동영상 핑거프린트 정보에 기반한 동영상 마크업 데이터 생성 방법 및 이를 이용한 정보 제공 방법 및 시스템 | |
JP7307887B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN117493606A (zh) | 一种视频检索方法、装置、系统、电子设备及存储介质 | |
WO2024106993A1 (ko) | 리뷰 데이터를 이용한 커머스 영상 생성 방법 및 서버 | |
WO2024091085A1 (ko) | 영상에 기초한 참조 장면 생성 방법 및 참조 장면 생성 장치 | |
CN111597361A (zh) | 多媒体数据处理方法、装置、存储介质及设备 | |
WO2024091086A1 (ko) | 영상 스킵 기능 제공 방법 및 영상 스킵 기능 제공 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23892063 Country of ref document: EP Kind code of ref document: A1 |