WO2022059817A1 - Ai-based minimal contextual exploration method on basis of meta-information recognition that can be known from dialogues and backgrounds of images and videos - Google Patents

Ai-based minimal contextual exploration method on basis of meta-information recognition that can be known from dialogues and backgrounds of images and videos Download PDF

Info

Publication number
WO2022059817A1
WO2022059817A1 PCT/KR2020/012598 KR2020012598W WO2022059817A1 WO 2022059817 A1 WO2022059817 A1 WO 2022059817A1 KR 2020012598 W KR2020012598 W KR 2020012598W WO 2022059817 A1 WO2022059817 A1 WO 2022059817A1
Authority
WO
WIPO (PCT)
Prior art keywords
clip
information
images
emotion
image
Prior art date
Application number
PCT/KR2020/012598
Other languages
French (fr)
Korean (ko)
Inventor
박문수
Original Assignee
주식회사 사이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 사이 filed Critical 주식회사 사이
Priority to PCT/KR2020/012598 priority Critical patent/WO2022059817A1/en
Publication of WO2022059817A1 publication Critical patent/WO2022059817A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Definitions

  • the present invention relates to image-related technology, and more particularly, to meta-information recognition-based AI minimal context search technology.
  • Korean Patent Application Laid-Open No. 10-2015-0011652 discloses a content of generating a clip video and providing a preview video using the generated clip video.
  • a method of generating video section data according to this is as follows.
  • a moving picture is reproduced in the first area of the display by using the moving picture data.
  • a section within the video is selected based on one or more signals input through the user interface.
  • an image representing the section is generated by using data corresponding to the section selected from among the video data.
  • the representative image is displayed on the second area of the display.
  • video section data corresponding to the section selected above is generated.
  • An object of the present invention is to provide an AI minimum context search method for recognizing meta information that can be known from the dialogue and background of a trailer video.
  • an object of the present invention is to provide a technical method for automatically generating a trailer image composed of only scenes containing emotions preferred by a user from one or more image contents.
  • the AI minimum context exploration method of meta-information recognition that can be known from the lines and backgrounds of images and videos extracts lines and backgrounds from the trailer video, and after recognizing meta information based on the extracted lines and backgrounds, the It includes a trailer analysis step of performing artificial intelligence-based minimal contextual exploration using the recognized meta information.
  • FIG. 1 is a block diagram of an AI minimal context search system according to an embodiment.
  • FIG. 2 is a flowchart of an AI minimal context search method according to an embodiment.
  • FIG. 3 is a diagram illustrating emotion items.
  • FIG. 5 is a diagram illustrating a process of generating a clip image and clip information.
  • FIG. 6 is a detailed flowchart of S230 according to an embodiment.
  • FIG. 7 is a diagram illustrating a process of converting clip information into a multidimensional vector.
  • FIG. 8 is a diagram illustrating vector grouping.
  • 9 is a diagram illustrating words classified by group.
  • FIG. 10 is an exemplary diagram illustrating a process of extracting emotion words from clip information.
  • the AI minimal context search system includes a clip generation unit 100 , a clip emotion mapping unit 200 , and a trailer generation unit 300 , and further includes a user preference information generation unit 400 . can do.
  • the AI minimal context search system may further include a trailer analysis unit. These are all software-implementable configurations, and may be executed by one or more processors.
  • the AI minimal context search system of FIG. 1 may be configured in a user device, or may be configured in a server system that provides a trailer image to the user device. Alternatively, a part of FIG. 1 may be configured by being dualized in a user device and the rest in a server system.
  • the clip generating unit 100 generates a plurality of clip images from image content. When one or a plurality of moving images are given as input, the clip generating unit 100 divides each moving image into a plurality of pieces and generates a plurality of clip images. In one embodiment, the clip generating unit 100 generates a clip image by cutting a video based on the subtitle for an image section in which a subtitle exists, and for an image section in which a subtitle does not exist, a scene unit or A clip image is created by cutting in units of time or the like. The created clip images are stored and stored in storage.
  • the clip emotion mapping unit 200 analyzes each clip image and maps one or more emotion items for each clip image.
  • the clip emotion mapping unit 200 recognizes a universal emotion that a person feels from the clip image, and maps and manages the captured emotion to the clip image.
  • the clip emotion mapping unit 200 maps emotion items corresponding to the clip image based on the caption analysis and the image analysis when the clip image includes a caption, and when the clip image does not include a caption The emotion item corresponding to the clip image is mapped based only on image analysis. Mapping information for each clip image is stored and managed in a database.
  • the trailer generator 300 generates a trailer image by combining some of the clip images of the target video, but generates the trailer image in consideration of emotion items mapped to the clip images of the target video.
  • the target video refers to video content designated by the user.
  • the trailer generator 300 generates a trailer image from clip images to which emotion items belonging to user preference emotion information are mapped. Thereby, it becomes possible to create a user-customized trailer image.
  • the emotion items belonging to the user preference emotion information may include anger, fear, and sadness.
  • the clip emotion mapping unit 200 may include a clip information generating unit 210 and an emotion mapping unit 230 .
  • the clip information generating unit 210 generates clip information for each clip image.
  • the clip information is information in the form of text, and refers to meta information about a clip image.
  • the clip information generator 210 may perform caption analysis and image analysis, and may generate clip information according to the analysis result. Only image analysis can be performed on clip images without subtitles. Also, in the case of a clip image including subtitles, the clip information may include caption text and image description text, and clip information of a clip image not including subtitles may include only image description text except for caption text.
  • the emotion mapping unit 230 maps one or more emotion items for each clip image by using the clip information generated by the clip information generating unit 210 . That is, the emotion mapping unit 230 maps one or more emotion items for each clip image based on the text included in the clip information. In an embodiment, the emotion mapping unit 230 maps the emotion item to the clip image by analyzing the vectorized emotion after vectorizing the clip
  • the emotion mapping unit 230 may include a vector generating unit 231 , a vector grouping unit 232 , and a mapping unit 233 .
  • the vector generator 231 converts the clip information generated by the clip information generator 210 into a multidimensional vector.
  • the vector generator 231 converts the clip information into a multidimensional vector using a pre-trained model through machine learning.
  • the vector grouping unit 232 groups the multidimensional vectors by clustering them. That is, similar values are classified into groups (clusters) among vectors.
  • each group is a group to which a unique emotion item is assigned.
  • the group may be referred to as an emotion group (emotion cluster).
  • the mapping unit 233 maps one or more emotion items to a corresponding clip image according to a unique emotion item for each group.
  • Clip information of a clip image is converted into a multidimensional vector, and the vectors are grouped, and emotion items assigned to one or more groups to which the vectors belong are mapped to the corresponding clip image.
  • the mapping unit 233 maps only emotion items for a group including a predetermined number or more of vectors to the clip image.
  • the clip emotion mapping unit 200 may further include a clip information preprocessing unit 220 .
  • the clip information pre-processing unit 220 pre-processes the clip information generated by the clip information generating unit 210 .
  • the clip information preprocessor 220 removes unnecessary words from clip information through preprocessing including normalization, tokenization, and stemming.
  • the clip information preprocessed by the clip information preprocessor 220 is transmitted to the emotion mapping unit 230 .
  • the user preference information generating unit 400 generates user preference emotion information for providing a customized trailer image to the user based on the user's preferred emotion.
  • the user preference information generating unit 400 generates user preference emotion information based on emotion items of clip images constituting one or a plurality of video contents preferred by the user. That is, the user preference information generating unit 400 is a user composed of emotion items preferred by the user according to the result of processing through the clip generating unit 100 and the clip emotion mapping unit 200 for the image content preferred by the user. Generate preference emotion information.
  • the trailer analysis unit 500 extracts dialogue and background from the trailer image, recognizes meta information based on the extracted dialogue and background, and then uses the recognized meta information to perform AI-based minimal context exploration.
  • the clip generating unit 100 generates a plurality of clip images by dividing the target moving image (S100). In S100, the clip generating unit 100 may generate a clip image based on the subtitle for the video section in which the caption exists, and cut the clip image by scene unit or time unit for the video section in which the caption does not exist. can create
  • the clip emotion mapping unit 200 analyzes each of the clip images and maps one or more emotion items for each clip image (S200). All emotion items are exemplified in FIG. 3 . All emotion items may be composed of positive emotions, negative emotions, and neutrals as shown in FIG. 3(A), and anger and disgust as shown in FIG. 3(B). ), Fear, Happiness, Sadness, and Surprise, and may be made more diversely as shown in FIG. 3C .
  • the trailer generator 300 generates a trailer image by combining some of the clip images of the target video (S300).
  • the trailer generator 300 generates a trailer image in consideration of emotion items mapped to clip images of the target video, and may generate a trailer image only from clip images having an emotion item preferred by the user. For example, when a user's preferred emotion item is happiness, sadness, or surprise, a trailer image is generated with clip images mapped thereto.
  • the trailer generator 300 generates a trailer image by randomly selecting and combining some of all clip images having an emotion item preferred by the user.
  • the trailer analysis unit extracts lines and backgrounds from the trailer image, recognizes meta information based on the extracted lines and backgrounds, and uses the recognized meta information to perform artificial intelligence-based minimal context exploration. do.
  • the clip information generating unit 210 generates clip information for each clip image (S210).
  • the clip information may include caption text and image description text obtained through caption analysis and image analysis.
  • FIG. 5 a process of generating clip information by generating clip images from one image and analyzing the clip images is illustrated in FIG. 5 .
  • “Moana” is exemplified as a target video. Subtitles and images are analyzed for video sections that include captions, and only image analysis is performed for video sections that do not include captions. And, as clip information according to the analysis result, text information such as “Thanks, Moana” and “A girl and an old woman standing side to side” is generated.
  • the clip information pre-processing unit 220 pre-processes clip information for each clip image (S220). Through preprocessing, unnecessary words are removed from clip information. For example, articles, conjunctions, or prepositions are removed.
  • the emotion mapping unit 230 maps one or more emotion items to the clip image by using the clip information (S230). For example, anger and fear are mapped to clip image A, happiness is mapped to clip image B, and fear and sadness are mapped to clip image C. .
  • the vector generator 231 converts the clip information into a multidimensional vector (S231). As illustrated in FIG. 7 , clip information “Thanks, Moana” and “A girl and an old woman standing side to side” are given as inputs to the training model and are converted into vectors.
  • the vector grouping unit 232 clusters the multidimensional vectors and groups them as shown in FIG. 8 ( S232 ). As illustrated in FIG. 8 , vectors having similar values are grouped together. When the groups are the positive emotion group, the negative emotion group, and the no emotion group, words frequently appearing in each group are exemplified in FIG. 9 .
  • the mapping unit 233 maps one or more emotion items to the corresponding clip image according to the group-specific emotion items (S233).
  • FIG. 10 is an exemplary diagram illustrating a process of extracting emotion words from clip information.
  • the Naive Bayes Classifier is an algorithm used for sentiment analysis. A naive Bayes classifier learns a vast amount of data set, and a pre-trained model is created through it.
  • the text which is clip information, is preprocessed through a preprocessing process including normalization, tokenization, and stemming and is input to the learning model. ) is exported.
  • This emotion word is the vector described above.
  • the above-described method can be written in a computer program. Codes and/or code segments constituting such a program can be easily inferred by a computer programmer in the art.
  • a program is stored in a computer-readable recording medium, and the method can be implemented by being read and executed by the computer.
  • a recording medium may be a magnetic recording medium, an optical recording medium, or the like.

Abstract

Disclosed is an AI-based minimal contextual exploration method on the basis of meta-information recognition that can be known from dialogues and backgrounds of images and videos. The method comprises a trailer analysis step of extracting dialogues and backgrounds from a trailer video, recognizing meta-information on the basis of the extracted dialogues and backgrounds, and then performing artificial intelligence-based minimal contextual exploration using the recognized meta-information.

Description

이미지 및 동영상의 대사와 배경으로 알 수 있는 메타 정보 인지의 AI 최소 문맥 탐구 방법AI minimal contextual exploration method of meta-information recognition that can be known from the dialogue and background of images and videos
본 발명은 영상 관련 기술에 관한 것으로, 특히 메타 정보 인지 기반 AI 최소 문맥 탐구 기술에 관한 것이다.The present invention relates to image-related technology, and more particularly, to meta-information recognition-based AI minimal context search technology.
국내공개특허공보 제10-2015-0011652호에는 클립 동영상을 생성하고 그 생성된 클립 동영상을 이용하여 미리보기 동영상을 제공하는 내용이 개시되어 있다. 이에 따른 동영상 구간 데이터 생성 방법은 다음과 같다. 첫 번째 단계에서는 동영상 데이터를 이용하여 디스플레이의 제 1 영역에 동영상을 재생한다. 두 번째 단계에서는 사용자 인터페이스를 통해 입력된 하나 이상의 신호에 기초하여 동영상 내 구간을 선택한다. 세 번째 단계에서는 동영상 데이터 중에서 선택된 구간에 대응하는 데이터를 이용하여 그 구간을 대표하는 이미지를 생성한다. 네 번째 단계에서는 대표 이미지를 디스플레이의 제 2 영역에 표시한다. 마지막 다섯 번째 단계에서는 사용자 인터페이스를 통해 대표 이미지가 선택된 경우, 위에서 선택된 구간에 대응하는 동영상 구간 데이터를 생성한다.Korean Patent Application Laid-Open No. 10-2015-0011652 discloses a content of generating a clip video and providing a preview video using the generated clip video. A method of generating video section data according to this is as follows. In the first step, a moving picture is reproduced in the first area of the display by using the moving picture data. In the second step, a section within the video is selected based on one or more signals input through the user interface. In the third step, an image representing the section is generated by using data corresponding to the section selected from among the video data. In the fourth step, the representative image is displayed on the second area of the display. In the fifth last step, when a representative image is selected through the user interface, video section data corresponding to the section selected above is generated.
본 발명은 트레일러 영상의 대사와 배경으로 알 수 있는 메타 정보 인지의 AI 최소 문맥 탐구 방법을 제공함을 목적으로 한다.An object of the present invention is to provide an AI minimum context search method for recognizing meta information that can be known from the dialogue and background of a trailer video.
나아가, 본 발명은 하나 이상의 영상 콘텐츠에서 사용자가 선호하는 감정이 담긴 장면들만으로 이루어진 트레일러 영상을 자동으로 생성하는 기술적 방안을 제공함을 목적으로 한다.Furthermore, an object of the present invention is to provide a technical method for automatically generating a trailer image composed of only scenes containing emotions preferred by a user from one or more image contents.
일 양상에 따른 이미지 및 동영상의 대사와 배경으로 알 수 있는 메타 정보 인지의 AI 최소 문맥 탐구 방법은 트레일러 영상으로부터 대사와 배경을 추출하며, 추출된 대사와 배경에 기반하여 메타 정보를 인지한 후에 그 인지된 메타 정보를 이용하여 인공지능 기반 최소 문맥 탐구를 수행하는 트레일러 분석 단계를 포함한다.According to an aspect, the AI minimum context exploration method of meta-information recognition that can be known from the lines and backgrounds of images and videos extracts lines and backgrounds from the trailer video, and after recognizing meta information based on the extracted lines and backgrounds, the It includes a trailer analysis step of performing artificial intelligence-based minimal contextual exploration using the recognized meta information.
본 발명에 따르면, 이미지 및 동영상의 대사와 배경으로 알 수 있는 메타 정보 인지의 AI 최소 문맥 탐구가 가능해진다.According to the present invention, it is possible to explore the AI minimum context of meta-information recognition that can be known from the dialogue and background of images and videos.
도 1은 일 실시예에 따른 AI 최소 문맥 탐구 시스템 블록도이다.1 is a block diagram of an AI minimal context search system according to an embodiment.
도 2는 일 실시예에 따른 AI 최소 문맥 탐구 방법 흐름도이다.2 is a flowchart of an AI minimal context search method according to an embodiment.
도 3은 감정 항목들을 예시한 도면이다.3 is a diagram illustrating emotion items.
도 4는 일 실시예에 따른 S200에 대한 상세 흐름도이다.4 is a detailed flowchart of S200 according to an embodiment.
도 5는 클립 영상 및 클립 정보를 생성하는 과정을 예시한 도면이다.5 is a diagram illustrating a process of generating a clip image and clip information.
도 6은 일 실시예에 따른 S230에 대한 상세 흐름도이다.6 is a detailed flowchart of S230 according to an embodiment.
도 7은 클립 정보를 다차원 벡터로 변환하는 과정을 예시한 도면이다.7 is a diagram illustrating a process of converting clip information into a multidimensional vector.
도 8은 벡터 그룹화를 예시한 도면이다.8 is a diagram illustrating vector grouping.
도 9는 그룹별 분류된 단어들을 예시한 도면이다.9 is a diagram illustrating words classified by group.
도 10은 클립 정보로부터 감정 단어를 추출하는 과정을 나타낸 예시도이다.10 is an exemplary diagram illustrating a process of extracting emotion words from clip information.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.The foregoing and further aspects of the present invention will become more apparent through preferred embodiments described with reference to the accompanying drawings. Hereinafter, the present invention will be described in detail so that those skilled in the art can easily understand and reproduce it through these examples.
도 1은 일 실시예에 따른 AI 최소 문맥 탐구 시스템 블록도이다. 도 1에 도시된 바와 같이, AI 최소 문맥 탐구 시스템은 클립 생성부(100)와 클립 감정 매핑부(200) 및 트레일러 생성부(300)를 포함하며, 사용자 선호 정보 생성부(400)를 더 포함할 수 있다. 또한, 도시되어 있지 않으나, AI 최소 문맥 탐구 시스템은 트레일러 분석부를 더 포함할 수 있다. 이들은 모두 소프트웨어적으로 구현 가능한 구성들이며, 하나 이상의 프로세서에 의해 실행될 수 있다. 그리고 도 1의 AI 최소 문맥 탐구 시스템은 사용자 디바이스에 구성될 수도 있고, 사용자 디바이스로 트레일러 영상을 제공하는 서버 시스템에 구성될 수도 있다. 아니면 도 1의 일부는 사용자 디바이스에 나머지는 서버 시스템에 이원화되어 구성되는 것도 가능하다.1 is a block diagram of an AI minimal context search system according to an embodiment. As shown in FIG. 1 , the AI minimal context search system includes a clip generation unit 100 , a clip emotion mapping unit 200 , and a trailer generation unit 300 , and further includes a user preference information generation unit 400 . can do. In addition, although not shown, the AI minimal context search system may further include a trailer analysis unit. These are all software-implementable configurations, and may be executed by one or more processors. And the AI minimal context search system of FIG. 1 may be configured in a user device, or may be configured in a server system that provides a trailer image to the user device. Alternatively, a part of FIG. 1 may be configured by being dualized in a user device and the rest in a server system.
클립 생성부(100)는 영상 콘텐츠로부터 복수의 클립 영상을 생성한다. 하나 또는 복수의 동영상이 입력으로 주어지면, 클립 생성부(100)는 각각의 동영상을 복수 개로 분할(cut)하여 복수의 클립 영상을 생성한다. 일 실시예에 있어서, 클립 생성부(100)는 자막(subtitle)이 존재하는 영상 구간에 대해서는 자막에 근거하여 동영상을 컷트하여 클립 영상을 생성하며, 자막이 존재하지 않는 영상 구간에 대해서는 장면 단위나 시간 단위 등으로 컷트하여 클립 영상을 생성한다. 생성된 클립 영상들은 스토리지에 저장되어 보관된다The clip generating unit 100 generates a plurality of clip images from image content. When one or a plurality of moving images are given as input, the clip generating unit 100 divides each moving image into a plurality of pieces and generates a plurality of clip images. In one embodiment, the clip generating unit 100 generates a clip image by cutting a video based on the subtitle for an image section in which a subtitle exists, and for an image section in which a subtitle does not exist, a scene unit or A clip image is created by cutting in units of time or the like. The created clip images are stored and stored in storage.
클립 감정 매핑부(200)는 각각의 클립 영상을 분석하여 클립 영상별로 하나 이상의 감정 항목을 매핑한다. 부연하면, 클립 감정 매핑부(200)는 클립 영상으로부터 사람이 느끼게 되는 보편적인 감정을 파악하고 그 파악된 감정을 클립 영상에 매핑 관리하는 것이다. 일 실시예에 있어서, 클립 감정 매핑부(200)는 클립 영상에 자막이 포함된 경우에는 자막 분석과 이미지 분석에 근거하여 클립 영상에 해당되는 감정 항목을 매핑하며, 클립 영상에 자막이 미포함된 경우에는 이미지 분석에만 근거하여 클립 영상에 해당되는 감정 항목을 매핑한다. 클립 영상별 매핑 정보는 데이터베이스에 저장되어 관리된다.The clip emotion mapping unit 200 analyzes each clip image and maps one or more emotion items for each clip image. In other words, the clip emotion mapping unit 200 recognizes a universal emotion that a person feels from the clip image, and maps and manages the captured emotion to the clip image. In one embodiment, the clip emotion mapping unit 200 maps emotion items corresponding to the clip image based on the caption analysis and the image analysis when the clip image includes a caption, and when the clip image does not include a caption The emotion item corresponding to the clip image is mapped based only on image analysis. Mapping information for each clip image is stored and managed in a database.
트레일러 생성부(300)는 타겟 동영상의 클립 영상들 중에서 일부를 조합하여 트레일러 영상을 생성하되, 타겟 동영상의 클립 영상들에 매핑된 감정 항목을 고려하여 트레일러 영상을 생성한다. 여기서, 타겟 동영상은 사용자에 의해 지정된 영상 콘텐츠를 말한다. 일 실시예에 있어서, 트레일러 생성부(300)는 사용자 선호 감정 정보에 속하는 감정 항목이 매핑된 클립 영상들로 트레일러 영상을 생성한다. 이에 의해, 사용자 맞춤형 트레일러 영상을 생성하는 것이 가능해진다. 참고로, 사용자 선호 감정 정보에 속하는 감정 항목들로는 분노(Anger), 두려움(Fear), 슬픔(Sadness) 등을 예로 들 수 있다.The trailer generator 300 generates a trailer image by combining some of the clip images of the target video, but generates the trailer image in consideration of emotion items mapped to the clip images of the target video. Here, the target video refers to video content designated by the user. In an embodiment, the trailer generator 300 generates a trailer image from clip images to which emotion items belonging to user preference emotion information are mapped. Thereby, it becomes possible to create a user-customized trailer image. For reference, the emotion items belonging to the user preference emotion information may include anger, fear, and sadness.
도 1에 도시된 바와 같이, 클립 감정 매핑부(200)는 클립 정보 생성부(210)와 감정 매핑부(230)를 포함할 수 있다. 클립 정보 생성부(210)는 클립 영상별로 클립 정보를 생성한다. 클립 정보는 텍스트 형태의 정보이며, 클립 영상에 대한 메타 정보(meta information)를 말한다. 클립 정보 생성부(210)는 자막 분석과 이미지 분석을 수행하고 그 분석 결과에 따라 클립 정보를 생성할 수 있다. 자막이 없는 클립 영상에 대해서는 이미지 분석만을 수행할 수 있다. 그리고 자막이 포함된 클립 영상의 경우의 클립 정보에는 자막 텍스트와 이미지 묘사 텍스트가 포함될 수 있으며, 자막이 미포함된 클립 영상의 클립 정보에는 자막 텍스트는 제외하고 이미지 묘사 텍스트만이 포함될 수 있다. 감정 매핑부(230)는 클립 정보 생성부(210)에 의해 생성된 클립 정보를 이용하여 클립 영상별로 하나 이상의 감정 항목을 매핑한다. 즉, 감정 매핑부(230)는 클립 정보에 포함된 텍스트에 근거하여 클립 영상별로 하나 이상의 감정 항목을 매핑한다. 일 실시예에 있어서, 감정 매핑부(230)는 클립 정보를 벡터화한 후에 벡터화된 감정을 분석하여 클립 영상에 해당 감정 항목을 매핑한다.1 , the clip emotion mapping unit 200 may include a clip information generating unit 210 and an emotion mapping unit 230 . The clip information generating unit 210 generates clip information for each clip image. The clip information is information in the form of text, and refers to meta information about a clip image. The clip information generator 210 may perform caption analysis and image analysis, and may generate clip information according to the analysis result. Only image analysis can be performed on clip images without subtitles. Also, in the case of a clip image including subtitles, the clip information may include caption text and image description text, and clip information of a clip image not including subtitles may include only image description text except for caption text. The emotion mapping unit 230 maps one or more emotion items for each clip image by using the clip information generated by the clip information generating unit 210 . That is, the emotion mapping unit 230 maps one or more emotion items for each clip image based on the text included in the clip information. In an embodiment, the emotion mapping unit 230 maps the emotion item to the clip image by analyzing the vectorized emotion after vectorizing the clip information.
도 1에 도시된 바와 같이, 감정 매핑부(230)는 벡터 생성부(231)와 벡터 그룹화부(232) 및 매핑부(233)를 포함할 수 있다. 벡터 생성부(231)는 클립 정보 생성부(210)에 의해 생성된 클립 정보를 다차원 벡터로 변환한다. 이때, 벡터 생성부(231)는 기계 학습(Machine Learning)을 통해 미리 준비된 학습 모델(Pre-trained Model)을 이용하여 클립 정보를 다차원 벡터로 변환한다. 벡터 그룹화부(232)는 다차원 벡터를 클러스터링하여 그룹화한다. 즉, 유사한 값을 벡터들끼리 그룹(클러스터)으로 분류하는 것이다. 여기서, 각각의 그룹은 고유 감정 항목이 부여된 그룹이다. 이러한 점에서, 그룹을 감정 그룹(감정 클러스터)이라 칭할 수 있다. 매핑부(233)는 그룹별 고유 감정 항목에 따라 해당 클립 영상에 하나 이상의 감정 항목을 매핑한다. 클립 영상의 클립 정보는 다차원 벡터로 변환되며, 벡터들은 그룹화되는 바, 벡터들이 속한 하나 이상의 그룹에 부여된 감정 항목을 해당 클립 영상에 매핑하는 것이다. 일 실시예에 있어서, 매핑부(233)는 소정 개수 이상의 벡터들이 포함된 그룹에 대한 감정 항목만을 클립 영상에 매핑한다.1 , the emotion mapping unit 230 may include a vector generating unit 231 , a vector grouping unit 232 , and a mapping unit 233 . The vector generator 231 converts the clip information generated by the clip information generator 210 into a multidimensional vector. In this case, the vector generator 231 converts the clip information into a multidimensional vector using a pre-trained model through machine learning. The vector grouping unit 232 groups the multidimensional vectors by clustering them. That is, similar values are classified into groups (clusters) among vectors. Here, each group is a group to which a unique emotion item is assigned. In this regard, the group may be referred to as an emotion group (emotion cluster). The mapping unit 233 maps one or more emotion items to a corresponding clip image according to a unique emotion item for each group. Clip information of a clip image is converted into a multidimensional vector, and the vectors are grouped, and emotion items assigned to one or more groups to which the vectors belong are mapped to the corresponding clip image. In an embodiment, the mapping unit 233 maps only emotion items for a group including a predetermined number or more of vectors to the clip image.
도 1에 도시된 바와 같이, 클립 감정 매핑부(200)는 클립 정보 전처리부(220)를 더 포함할 수 있다. 클립 정보 전처리부(220)는 클립 정보 생성부(210)에 의해 생성된 클립 정보를 전처리(Pre-processing)한다. 일 실시예에 있어서, 클립 정보 전처리부(220)는 정규화(Normalization), 토큰화(Tokenization), 형태소 분석(Stemming)을 포함하는 전처리를 통해 클립 정보에서 불필요한 단어를 제거한다. 클립 정보 전처리부(220)에 의해 전처리된 클립 정보는 감정 매핑부(230)로 전달된다.1 , the clip emotion mapping unit 200 may further include a clip information preprocessing unit 220 . The clip information pre-processing unit 220 pre-processes the clip information generated by the clip information generating unit 210 . In an embodiment, the clip information preprocessor 220 removes unnecessary words from clip information through preprocessing including normalization, tokenization, and stemming. The clip information preprocessed by the clip information preprocessor 220 is transmitted to the emotion mapping unit 230 .
사용자 선호 정보 생성부(400)는 사용자가 선호하는 감정에 기반하여 사용자에게 맞춤형 트레일러 영상을 제공할 수 있도록 하기 위한 사용자 선호 감정 정보를 생성한다. 일 실시예에 있어서, 사용자 선호 정보 생성부(400)는 사용자가 선호하는 하나 또는 복수의 영상 콘텐츠를 구성하는 클립 영상들의 감정 항목에 근거하여 사용자 선호 감정 정보를 생성한다. 즉, 사용자 선호 정보 생성부(400)는 사용자가 선호하는 영상 콘텐츠에 대해 클립 생성부(100)와 클립 감정 매핑부(200)를 통해 처리된 결과에 따라 사용자가 선호하는 감정 항목들로 구성된 사용자 선호 감정 정보를 생성한다.The user preference information generating unit 400 generates user preference emotion information for providing a customized trailer image to the user based on the user's preferred emotion. In an embodiment, the user preference information generating unit 400 generates user preference emotion information based on emotion items of clip images constituting one or a plurality of video contents preferred by the user. That is, the user preference information generating unit 400 is a user composed of emotion items preferred by the user according to the result of processing through the clip generating unit 100 and the clip emotion mapping unit 200 for the image content preferred by the user. Generate preference emotion information.
한편, 트레일러 분석부(500)는 트레일러 영상으로부터 대사와 배경을 추출하며, 추출된 대사와 배경에 기반하여 메타 정보를 인지한 후에 그 인지된 메타 정보를 이용하여 인공지능 기반 최소 문맥 탐구를 수행할 수 있다. On the other hand, the trailer analysis unit 500 extracts dialogue and background from the trailer image, recognizes meta information based on the extracted dialogue and background, and then uses the recognized meta information to perform AI-based minimal context exploration. can
도 2는 일 실시예에 따른 AI 최소 문맥 탐구 방법 흐름도이다. 클립 생성부(100)는 타겟 동영상을 분할(cut)하여 복수의 클립 영상을 생성한다(S100). S100에서, 클립 생성부(100)는 자막이 존재하는 영상 구간에 대해서는 자막에 근거하여 클립 영상을 생성할 수 있으며, 자막이 존재하지 않는 영상 구간에 대해서는 장면 단위나 시간 단위 등으로 컷트하여 클립 영상을 생성할 수 있다. 클립 감정 매핑부(200)는 클립 영상들 각각을 분석하여 클립 영상별로 하나 이상의 감정 항목을 매핑한다(S200). 도 3에 전체 감정 항목이 예시되어 있다. 전체 감정 항목은 도 3의 (A)와 같이 긍정적 감정(Positive), 부정적 감정(Negative), 무감정(Neutral)으로 이루어질 수 있고, 도 3의 (B)와 같이 분노(Anger), 역겨움(Disgust), 두려움(Fear), 행복(Happiness), 슬픔(Sadness), 놀라움(Surprise)으로 이루어질 수 있으며, 도 3의 (C)와 같이 더욱 다양하게 이루어질 수 있다.2 is a flowchart of an AI minimal context search method according to an embodiment. The clip generating unit 100 generates a plurality of clip images by dividing the target moving image (S100). In S100, the clip generating unit 100 may generate a clip image based on the subtitle for the video section in which the caption exists, and cut the clip image by scene unit or time unit for the video section in which the caption does not exist. can create The clip emotion mapping unit 200 analyzes each of the clip images and maps one or more emotion items for each clip image (S200). All emotion items are exemplified in FIG. 3 . All emotion items may be composed of positive emotions, negative emotions, and neutrals as shown in FIG. 3(A), and anger and disgust as shown in FIG. 3(B). ), Fear, Happiness, Sadness, and Surprise, and may be made more diversely as shown in FIG. 3C .
트레일러 생성부(300)는 타겟 동영상의 클립 영상들 중에서 일부를 조합하여 트레일러 영상을 생성한다(S300). S300에서, 트레일러 생성부(300)는 타겟 동영상의 클립 영상들에 매핑된 감정 항목을 고려하여 트레일러 영상을 생성하는데, 사용자가 선호하는 감정 항목을 갖는 클립 영상들만으로 트레일러 영상을 생성할 수 있다. 예를 들어, 사용자가 선호하는 감정 항목이 행복(Happiness), 슬픔(Sadness), 놀라움(Surprise)일 경우에는 이와 매핑된 클립 영상들로 트레일러 영상이 생성된다. 일 실시예에 있어서, 트레일러 생성부(300)는 사용자가 선호하는 감정 항목을 갖는 모든 클립 영상들 중에서 일부를 랜덤하게 선택하고 조합하여 트레일러 영상을 생성한다. 이후, 트레일러 분석부(미도시)는 트레일러 영상으로부터 대사와 배경을 추출하며, 추출된 대사와 배경에 기반하여 메타 정보를 인지한 후에 그 인지된 메타 정보를 이용하여 인공지능 기반 최소 문맥 탐구를 수행한다.The trailer generator 300 generates a trailer image by combining some of the clip images of the target video (S300). In S300 , the trailer generator 300 generates a trailer image in consideration of emotion items mapped to clip images of the target video, and may generate a trailer image only from clip images having an emotion item preferred by the user. For example, when a user's preferred emotion item is happiness, sadness, or surprise, a trailer image is generated with clip images mapped thereto. In an embodiment, the trailer generator 300 generates a trailer image by randomly selecting and combining some of all clip images having an emotion item preferred by the user. Thereafter, the trailer analysis unit (not shown) extracts lines and backgrounds from the trailer image, recognizes meta information based on the extracted lines and backgrounds, and uses the recognized meta information to perform artificial intelligence-based minimal context exploration. do.
도 4는 일 실시예에 따른 S200에 대한 상세 흐름도이다. 클립 정보 생성부(210)는 클립 영상마다 클립 정보를 생성한다(S210). 클립 정보는 자막 분석과 이미지 분석을 통해 얻어진 자막 텍스트와 이미지 묘사 텍스트를 포함하여 이루어질 수 있다. 참고로, 도 5에 하나의 영상으로부터 클립 영상들을 생성하고 클립 영상들을 분석하여 클립 정보들을 생성하는 과정이 예시되어 있다. 타겟 동영상으로 “모아나”가 예시되어 있다. 자막이 포함된 영상 구간에 대해서는 자막과 이미지 분석이 이루어지며, 자막이 미포함된 영상 구간에 대해서는 이미지 분석만이 이루어진다. 그리고 분석 결과에 따른 클립 정보로는 “Thanks, Moana”와 “A girl and an old woman standing side to side”와 같이 텍스트 형태의 정보가 생성된다.4 is a detailed flowchart of S200 according to an embodiment. The clip information generating unit 210 generates clip information for each clip image (S210). The clip information may include caption text and image description text obtained through caption analysis and image analysis. For reference, a process of generating clip information by generating clip images from one image and analyzing the clip images is illustrated in FIG. 5 . “Moana” is exemplified as a target video. Subtitles and images are analyzed for video sections that include captions, and only image analysis is performed for video sections that do not include captions. And, as clip information according to the analysis result, text information such as “Thanks, Moana” and “A girl and an old woman standing side to side” is generated.
클립 정보 전처리부(220)는 클립 영상별 클립 정보를 전처리한다(S220). 전처리를 통해, 클립 정보에서 불필요한 단어는 제거된다. 예를 들어, 관사나 접속사 혹은 전치사 등은 제거된다. 감정 매핑부(230)는 클립 정보를 이용하여 클립 영상에 하나 이상의 감정 항목을 매핑한다(S230). 예를 들어, 클립 영상 A에는 분노(Anger)와 두려움(Fear)이 매핑되고, 클립 영상 B에는 행복(Happiness)이 매핑되며, 클립 영상 C에는 두려움(Fear)과 슬픔(Sadness)이 매핑되는 것이다.The clip information pre-processing unit 220 pre-processes clip information for each clip image (S220). Through preprocessing, unnecessary words are removed from clip information. For example, articles, conjunctions, or prepositions are removed. The emotion mapping unit 230 maps one or more emotion items to the clip image by using the clip information (S230). For example, anger and fear are mapped to clip image A, happiness is mapped to clip image B, and fear and sadness are mapped to clip image C. .
도 6은 일 실시예에 따른 S230에 대한 상세 흐름도이다. 벡터 생성부(231)는 클립 정보를 다차원 벡터로 변환한다(S231). 도 7에 예시된 바와 같이, 클립 정보인 “Thanks, Moana”와 “A girl and an old woman standing side to side”가 학습 모델(Trained Model)에 입력으로 주어져 벡터로 변환된다. 벡터 그룹화부(232)는 다차원 벡터를 클러스터링하여 도 8에서와 같이 그룹화한다(S232). 도 8에 예시된 바와 같이, 유사한 값을 갖는 벡터들끼리 그룹화된다. 그룹이 긍정적 감정 그룹과 부정적 감정 그룹 및 무감정 그룹일 경우에, 각각의 그룹에서 자주 나타나는 단어들이 도 9에 예시되어 있다. 매핑부(233)는 그룹별 고유 감정 항목에 따라 해당 클립 영상에 하나 이상의 감정 항목을 매핑한다(S233).6 is a detailed flowchart of S230 according to an embodiment. The vector generator 231 converts the clip information into a multidimensional vector (S231). As illustrated in FIG. 7 , clip information “Thanks, Moana” and “A girl and an old woman standing side to side” are given as inputs to the training model and are converted into vectors. The vector grouping unit 232 clusters the multidimensional vectors and groups them as shown in FIG. 8 ( S232 ). As illustrated in FIG. 8 , vectors having similar values are grouped together. When the groups are the positive emotion group, the negative emotion group, and the no emotion group, words frequently appearing in each group are exemplified in FIG. 9 . The mapping unit 233 maps one or more emotion items to the corresponding clip image according to the group-specific emotion items (S233).
도 10은 클립 정보로부터 감정 단어를 추출하는 과정을 나타낸 예시도이다. 잘 알려진 바와 같이, 나이브 베이즈 분류기(Naive Bayes Classifier)는 감성 분석에 사용되는 알고리즘이다. 나이브 베이즈 분류기는 방대한 양의 데이터 셋(data set)을 학습하며, 이를 통해 학습 모델(Pre-trained Model)이 만들어진다. 클립 정보인 텍스트는 정규화(Normalization), 토큰화(Tokenization), 형태소 분석(Stemming)을 포함하는 전처리 과정을 통해 전처리되어 학습 모델에 입력되며, 학습 모델은 전처리된 텍스트를 처리하여 감정 단어(Emotion Word)를 내보낸다. 이 감정 단어가 상술한 벡터이다.10 is an exemplary diagram illustrating a process of extracting emotion words from clip information. As is well known, the Naive Bayes Classifier is an algorithm used for sentiment analysis. A naive Bayes classifier learns a vast amount of data set, and a pre-trained model is created through it. The text, which is clip information, is preprocessed through a preprocessing process including normalization, tokenization, and stemming and is input to the learning model. ) is exported. This emotion word is the vector described above.
한편, 상술한 방법은 컴퓨터 프로그램으로 작성이 가능하다. 이 같은 프로그램을 구성하는 코드들 및/또는 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 이 같은 프로그램은 컴퓨터가 읽을 수 있는 기록매체에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 그 방법이 구현될 수 있다. 이 같은 기록매체는 자기 기록매체, 광 기록매체 등일 수 있다.On the other hand, the above-described method can be written in a computer program. Codes and/or code segments constituting such a program can be easily inferred by a computer programmer in the art. In addition, such a program is stored in a computer-readable recording medium, and the method can be implemented by being read and executed by the computer. Such a recording medium may be a magnetic recording medium, an optical recording medium, or the like.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been looked at with respect to preferred embodiments thereof. Those of ordinary skill in the art to which the present invention pertains will understand that the present invention can be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments are to be considered in an illustrative rather than a restrictive sense. The scope of the present invention is indicated in the claims rather than the foregoing description, and all differences within the scope equivalent thereto should be construed as being included in the present invention.

Claims (6)

  1. 트레일러 영상으로부터 대사와 배경을 추출하며, 추출된 대사와 배경에 기반하여 메타 정보를 인지한 후에 그 인지된 메타 정보를 이용하여 인공지능 기반 최소 문맥 탐구를 수행하는 트레일러 분석 단계;a trailer analysis step of extracting dialogue and background from the trailer image, recognizing meta information based on the extracted dialogue and background, and performing artificial intelligence-based minimal context exploration using the recognized meta information;
    를 포함하는 이미지 및 동영상의 대사와 배경으로 알 수 있는 메타 정보 인지의 AI 최소 문맥 탐구 방법.AI minimal contextual exploration method of meta-information recognition that can be known from the dialogue and background of images and videos containing
  2. 제 1 항에 있어서,The method of claim 1,
    영상 콘텐츠로부터 복수의 클립 영상을 생성하는 클립 생성 단계;a clip generating step of generating a plurality of clip images from image contents;
    각각의 클립 영상을 분석하여 하나 이상의 감정 항목을 매핑하는 클립 감정 매핑 단계; 및a clip emotion mapping step of analyzing each clip image and mapping one or more emotion items; and
    타겟 동영상의 클립 영상들 중에서 일부를 조합하여 트레일러 영상을 생성하되, 클립 영상들에 매핑된 감정 항목을 고려하여 트레일러 영상을 생성하는 트레일러 생성 단계;A trailer generating step of generating a trailer image by combining some of the clip images of the target video, and generating a trailer image in consideration of emotion items mapped to the clip images;
    를 더 포함하는 이미지 및 동영상의 대사와 배경으로 알 수 있는 메타 정보 인지의 AI 최소 문맥 탐구 방법.AI minimal contextual exploration method of meta-information recognition that can be known from the dialogue and background of images and videos that further include.
  3. 제 1 항에 있어서, 클립 감정 매핑 단계는 :The method of claim 1, wherein the clip emotion mapping step comprises:
    클립 영상을 분석하여 클립 정보를 생성하는 클립 정보 생성 단계; 및a clip information generation step of analyzing a clip image to generate clip information; and
    클립 정보를 다차원 벡터로 변환하는 벡터 생성 단계와, 다차원 벡터를 클러스터링하여 그룹화하는 벡터 그룹화 단계, 및 그룹별 고유 감정 항목에 따라 해당 클립 영상에 하나 이상의 감정 항목을 매핑하는 매핑 단계를 포함하는 감정 매핑 단계;Emotion mapping comprising a vector generation step of converting clip information into a multidimensional vector, a vector grouping step of clustering and grouping the multidimensional vector, and a mapping step of mapping one or more emotion items to the clip image according to the unique emotion items for each group step;
    를 포함하는 이미지 및 동영상의 대사와 배경으로 알 수 있는 메타 정보 인지의 AI 최소 문맥 탐구 방법.AI minimal contextual exploration method of meta-information recognition that can be known from the dialogue and background of images and videos containing
  4. 제 3 항에 있어서, 클립 감정 매핑 단계는 :4. The method of claim 3, wherein the clip emotion mapping step comprises:
    클립 정보를 전처리하는 클립 정보 전처리 단계;Clip information pre-processing step of pre-processing clip information;
    를 더 포함하는 이미지 및 동영상의 대사와 배경으로 알 수 있는 메타 정보 인지의 AI 최소 문맥 탐구 방법.AI minimal contextual exploration method of meta-information recognition that can be known from the dialogue and background of images and videos that further include.
  5. 제 1 항에 있어서,The method of claim 1,
    트레일러 생성 단계는 사용자 선호 감정 정보에 속하는 감정 항목이 매핑된 클립 영상들로 트레일러 영상을 생성하는 이미지 및 동영상의 대사와 배경으로 알 수 있는 메타 정보 인지의 AI 최소 문맥 탐구 방법.The trailer creation step is an AI minimal context exploration method of recognizing meta information that can be known from the dialogue and background of images and videos that generate trailer images with clip images to which emotion items belonging to user preference emotional information are mapped.
  6. 제 5 항에 있어서,6. The method of claim 5,
    사용자가 선호하는 하나 이상의 영상 콘텐츠를 구성하는 클립 영상들의 감정 항목에 근거하여 사용자 선호 감정 정보를 생성하는 사용자 선호 정보 생성 단계;a user preference information generation step of generating user preference emotion information based on emotion items of clip images constituting one or more video contents preferred by the user;
    를 더 포함하는 이미지 및 동영상의 대사와 배경으로 알 수 있는 메타 정보 인지의 AI 최소 문맥 탐구 방법.AI minimal contextual exploration method of meta-information recognition that can be known from the dialogue and background of images and videos that further include.
PCT/KR2020/012598 2020-09-18 2020-09-18 Ai-based minimal contextual exploration method on basis of meta-information recognition that can be known from dialogues and backgrounds of images and videos WO2022059817A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/012598 WO2022059817A1 (en) 2020-09-18 2020-09-18 Ai-based minimal contextual exploration method on basis of meta-information recognition that can be known from dialogues and backgrounds of images and videos

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/012598 WO2022059817A1 (en) 2020-09-18 2020-09-18 Ai-based minimal contextual exploration method on basis of meta-information recognition that can be known from dialogues and backgrounds of images and videos

Publications (1)

Publication Number Publication Date
WO2022059817A1 true WO2022059817A1 (en) 2022-03-24

Family

ID=80777039

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/012598 WO2022059817A1 (en) 2020-09-18 2020-09-18 Ai-based minimal contextual exploration method on basis of meta-information recognition that can be known from dialogues and backgrounds of images and videos

Country Status (1)

Country Link
WO (1) WO2022059817A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130346144A1 (en) * 2010-08-27 2013-12-26 Intel Corporation Technique and apparatus for analyzing video and dialog to build viewing context
KR20180003309A (en) * 2016-06-30 2018-01-09 주식회사 케이티 System and method for video summary
JP2018005286A (en) * 2016-06-27 2018-01-11 日本放送協会 Content recommendation device, content recommendation method, and content recommendation program
KR20200093235A (en) * 2019-01-28 2020-08-05 주식회사 룩시드랩스 Apparatus and method for generating highlight video using biological data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130346144A1 (en) * 2010-08-27 2013-12-26 Intel Corporation Technique and apparatus for analyzing video and dialog to build viewing context
JP2018005286A (en) * 2016-06-27 2018-01-11 日本放送協会 Content recommendation device, content recommendation method, and content recommendation program
KR20180003309A (en) * 2016-06-30 2018-01-09 주식회사 케이티 System and method for video summary
KR20200093235A (en) * 2019-01-28 2020-08-05 주식회사 룩시드랩스 Apparatus and method for generating highlight video using biological data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHOI HEEJIN: "Semantic Video Segmentation and Scene-based Topic Generation of Broadcasting Contents", ETRI, 10 November 2016 (2016-11-10), pages 1 - 7, XP055863230, Retrieved from the Internet <URL:https://www.etri.re.kr/file/bbsFileDownJSON.etri;jsessionid=A2D23D21166DF3FC1FEFE9530BB92B75?b_board_id=ENG03&f_idx=8864> [retrieved on 20211118] *

Similar Documents

Publication Publication Date Title
CN109117777B (en) Method and device for generating information
CN108595708A (en) A kind of exception information file classification method of knowledge based collection of illustrative plates
WO2020080606A1 (en) Method and system for automatically generating video content-integrated metadata using video metadata and script data
KR20200054613A (en) Video metadata tagging system and method thereof
CN114465737B (en) Data processing method and device, computer equipment and storage medium
KR20210097314A (en) Artificial intelligence based image generation system
CN112201228A (en) Multimode semantic recognition service access method based on artificial intelligence
CN114332679A (en) Video processing method, device, equipment, storage medium and computer program product
CN114996506A (en) Corpus generation method and device, electronic equipment and computer-readable storage medium
CN111488813A (en) Video emotion marking method and device, electronic equipment and storage medium
CN111800650B (en) Video dubbing method and device, electronic equipment and computer readable medium
CN113886568A (en) Text abstract generation method and device
CN110866086A (en) Article matching system
WO2022059817A1 (en) Ai-based minimal contextual exploration method on basis of meta-information recognition that can be known from dialogues and backgrounds of images and videos
CN113626553B (en) Cascade binary Chinese entity relation extraction method based on pre-training model
Krishnaswamy et al. A formal analysis of multimodal referring strategies under common ground
CN115580758A (en) Video content generation method and device, electronic equipment and storage medium
WO2020196929A1 (en) System for generating highlight content on basis of artificial intelligence
CN114880496A (en) Multimedia information topic analysis method, device, equipment and storage medium
WO2022059818A1 (en) Method for constructing narrative of crowd meta information in video search
CN115186133A (en) Video generation method and device, electronic equipment and medium
WO2020138546A1 (en) User preference-based trailer image generation system
WO2020138545A1 (en) System for generating trailer image on basis of user query
JPH05233719A (en) Between-composite information relevance identifying method
Jacob et al. Video content analysis and retrieval system using video storytelling and indexing techniques.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20954213

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20954213

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 04/08/2023)