WO2023106554A1 - Artificial intelligence-based video edit recommendation method for semi-automatic video editing by means of computer-human cooperation - Google Patents

Artificial intelligence-based video edit recommendation method for semi-automatic video editing by means of computer-human cooperation Download PDF

Info

Publication number
WO2023106554A1
WO2023106554A1 PCT/KR2022/012475 KR2022012475W WO2023106554A1 WO 2023106554 A1 WO2023106554 A1 WO 2023106554A1 KR 2022012475 W KR2022012475 W KR 2022012475W WO 2023106554 A1 WO2023106554 A1 WO 2023106554A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
editing
unit
situation
event
Prior art date
Application number
PCT/KR2022/012475
Other languages
French (fr)
Korean (ko)
Inventor
송혁
고민수
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Publication of WO2023106554A1 publication Critical patent/WO2023106554A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Abstract

Provided is an artificial intelligence-based video edit recommendation method for semi-automatic video editing by means of computer-human cooperation. A video edit recommendation method according to an embodiment of the present invention divides video content into cut units; infers the situation and detects an event by analyzing the divided video content, and recommends video clips required for an editing process in accordance with the situation inference result, event detection result, and genre information. Therefore, by automatically recommending video clips required for video editing on the basis of artificial intelligence, artificial intelligence performs a considerable amount of work required for a step prior to editing work, and an editor only needs to do supplementary work and follow-up work, and thus effort and time required for editing may notably be reduced.

Description

컴퓨터와 사람의 협업을 통한 동영상 반자동 편집을 위한 인공지능 기반 동영상 편집 추천 방법Artificial intelligence-based video editing recommendation method for semi-automatic video editing through computer-human collaboration
본 발명은 동영상 편집 기술에 관한 것으로, 더욱 상세하게는 인공지능을 이용하여 동영상 편집 작업을 경감시키기 위한 방법에 관한 것이다.The present invention relates to video editing technology, and more particularly, to a method for reducing video editing work using artificial intelligence.
현재 동영상 편집은 동영상 자르기, 합치기, 분할 등을 지원하여 주는 편집 툴이나 소프트웨어를 이용하여 편집자가 직접 작업하고 있다. 여기에는 동영상의 내용 파악, 흐름에 따른 배열 작업, 편집 의도에 맞는 부분을 잘라내는 작업, 잘라낸 부분들을 재배열하는 작업, 재배열 이후의 가편집 작업 등이 요구되어, 많은 노력과 시간이 소요된다.Currently, video editing is performed directly by editors using editing tools or software that support video clipping, combining, dividing, and the like. This requires a lot of effort and time, as it requires understanding the contents of the video, arranging it according to the flow, cutting out parts that fit the editing intent, rearranging the cut parts, and tentative editing after rearranging. .
이에 따라, 동영상을 자동으로 편집하여 주기 위한 기술이 제시되고는 있지만, 동영상의 장르나 편집 의도 등이 제대로 반영되지 않은 기계적인 편집이라는 점에서 한계가 있다.Accordingly, although a technique for automatically editing a video has been proposed, it has limitations in that it is a mechanical editing that does not properly reflect the genre or editing intention of the video.
그러므로 컴퓨터에 의한 완전한 자동 편집 보다는 컴퓨터와 사람의 협업에 의한 반자동의 편집이 보다 적합하다는 전제 하에, 이 같은 반자동 편집을 보다 효과적으로 수행하기 위한 방안이 필요하다.Therefore, on the premise that semi-automatic editing by computer and human collaboration is more suitable than fully automatic editing by computer, a method for performing such semi-automatic editing more effectively is needed.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 컴퓨터와 사람의 협업을 통한 동영상 반자동 편집을 위한 인공지능 기반 동영상 편집 추천 방법을 제공함에 있다.The present invention has been made to solve the above problems, and an object of the present invention is to provide an artificial intelligence-based video editing recommendation method for semi-automatic video editing through collaboration between a computer and a person.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 동영상 편집 추천 방법은, 동영상 콘텐츠를 컷 단위로 분할하는 단계; 분할된 동영상 콘텐츠에서 객체를 검출하는 단계; 검출된 객체를 인식하는 단계; 검출된 객체의 행동을 인지하는 단계; 객체 검출 결과, 객체 인식 결과, 행동 인지 결과로부터 상황을 추론하는 단계; 객체 검출 결과, 객체 인식 결과, 행동 인지 결과로부터 이벤트를 탐지하는 단계; 상황 추론 결과, 이벤트 탐지 결과 및 장르 정보로부터 편집 과정에 필요한 동영상 클립들을 추천하는 단계;를 포함한다.According to an embodiment of the present invention for achieving the above object, a video editing recommendation method includes dividing video content into cut units; Detecting an object from segmented video content; recognizing the detected object; recognizing the behavior of the detected object; inferring a situation from an object detection result, an object recognition result, and an action recognition result; detecting an event from an object detection result, an object recognition result, and an action recognition result; and recommending video clips necessary for an editing process based on a situation inference result, an event detection result, and genre information.
추천 단계는, 동영상 클립들과 함께 동영상 클립들의 순서를 추천할 수 있다.In the recommendation step, the order of the video clips may be recommended together with the video clips.
순서가 추천되는 동영상 클립들은, 동 시간대에 다른 앵글로 촬영된 것들을 포함할 수 있다.The video clips in which the order is recommended may include those filmed at different angles at the same time.
장르 정보는, 편집자가 설정할 수 있다.Genre information can be set by an editor.
장르 정보는, 인공지능 모델을 이용하여 객체 검출 결과, 객체 인식 결과, 행동 인지 결과, 상황 추론 결과 및 이벤트 탐지 결과 중 적어도 하나로부터 추론될 수 있다.Genre information may be inferred from at least one of an object detection result, an object recognition result, a behavior recognition result, a situation inference result, and an event detection result using an artificial intelligence model.
추천 단계는, 편집자의 편집 의도를 더 반영하여, 편집 과정에 필요한 동영상 클립들을 추천할 수 있다. 편집 의도는, 편집자가 설정한 상황 정보와 이벤트 정보를 포함할 수 있다.In the recommendation step, video clips necessary for the editing process may be recommended by further reflecting the editor's editing intention. The editing intent may include situation information and event information set by the editor.
추천 단계는, 추천할 동영상 클립들 각각에 전후 동영상을 일정 시간 씩 더 부가하여 추천할 수 있다.In the recommendation step, the recommendation may be performed by additionally adding before and after videos for a predetermined time to each of the video clips to be recommended.
추천된 동영상 클립들에, 편집자가 입력한 추가 정보를 기초로 동영상 클립들을 추가할 수 있다.To the recommended video clips, video clips may be added based on additional information input by the editor.
한편, 본 발명의 다른 실시예에 따른, 동영상 편집 추천 시스템은, 동영상 콘텐츠를 컷 단위로 분할하는 분할부; 분할된 동영상 콘텐츠에서 객체를 검출하는 검출부; 검출된 객체를 인식하는 인식부; 검출된 객체의 행동을 인지하는 인지부; 객체 검출 결과, 객체 인식 결과, 행동 인지 결과로부터 상황을 추론하는 추론부; 객체 검출 결과, 객체 인식 결과, 행동 인지 결과로부터 이벤트를 탐지하는 탐지부; 상황 추론 결과, 이벤트 탐지 결과 및 장르 정보로부터 편집 과정에 필요한 동영상 클립들을 추천하는 추천부;를 포함한다.Meanwhile, according to another embodiment of the present invention, a video editing recommendation system includes a division unit dividing video content into cut units; a detector for detecting an object in the segmented video content; a recognizing unit recognizing the detected object; a recognition unit recognizing the behavior of the detected object; an inference unit for inferring a situation from an object detection result, an object recognition result, and an action recognition result; a detection unit that detects an event from an object detection result, an object recognition result, and an action recognition result; It includes; a recommendation unit for recommending video clips necessary for the editing process based on situation reasoning results, event detection results, and genre information.
한편, 본 발명의 다른 실시예에 따른, 동영상 편집 추천 방법은, 동영상 콘텐츠를 컷 단위로 분할하는 단계; 분할된 동영상 콘텐츠에서 상황을 추론하는 단계; 분할된 동영상 콘텐츠에서 이벤트를 탐지하는 단계; 상황 추론 결과, 이벤트 탐지 결과 및 장르 정보로부터 편집 과정에 필요한 동영상 클립들을 추천하는 단계;를 포함한다.Meanwhile, according to another embodiment of the present invention, a video editing recommendation method includes dividing video content into cut units; Inferring a situation from segmented video content; Detecting an event in the segmented video content; and recommending video clips necessary for an editing process based on a situation inference result, an event detection result, and genre information.
한편, 본 발명의 다른 실시예에 따른, 동영상 편집 추천 시스템은, 동영상 콘텐츠를 컷 단위로 분할하는 분할부; 분할된 동영상 콘텐츠에서 상황을 추론하는 추론부; 분할된 동영상 콘텐츠에서 이벤트를 탐지하는 탐지부; 상황 추론 결과, 이벤트 탐지 결과 및 장르 정보로부터 편집 과정에 필요한 동영상 클립들을 추천하는 추천부;를 포함한다.Meanwhile, according to another embodiment of the present invention, a video editing recommendation system includes a division unit dividing video content into cut units; an inference unit that infers a situation from the segmented video content; a detection unit for detecting an event in the segmented video content; It includes; a recommendation unit for recommending video clips necessary for the editing process based on situation reasoning results, event detection results, and genre information.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 인공지능 기반으로 동영상 편집에 필요한 영상 클립들을 자동으로 추천함으로써, 편집 작업의 전단계에 필요한 상당 부분의 작업을 인공지능이 대신하여 주고, 편집자는 보완 작업과 후속 작업만 하면 되므로, 편집에 드는 노력과 시간을 획기적으로 줄일 수 있게 된다.As described above, according to the embodiments of the present invention, by automatically recommending video clips necessary for video editing based on artificial intelligence, artificial intelligence replaces a significant part of the work required in the previous stage of editing, and the editor Since only supplementary and follow-up work is required, the effort and time required for editing can be drastically reduced.
또한, 본 발명의 실시예들에 따르면, 컴퓨터에 의함에도 동영상의 장르와 편집 의도에 부합하는 적정의 영상 클립들이 자동으로 추천되어, 우수한 편집 퀄리티를 보장할 수 있게 된다.In addition, according to embodiments of the present invention, appropriate video clips that match the genre and editing intention of a video are automatically recommended even by a computer, so that excellent editing quality can be guaranteed.
도 1은 본 발명의 일 실시예에 따른 동영상 반자동 편집 시스템의 블럭도,1 is a block diagram of a semi-automatic video editing system according to an embodiment of the present invention;
도 2는 본 발명의 다른 실시예에 따른 동영상 반자동 편집 시스템의 블럭도,2 is a block diagram of a semi-automatic video editing system according to another embodiment of the present invention;
도 3은 본 발명의 또 다른 실시예에 따른 동영상 반자동 편집 시스템의 블럭도, 그리고,3 is a block diagram of a semi-automatic video editing system according to another embodiment of the present invention, and
도 4는 본 발명의 또 다른 실시예에 따른 동영상 반자동 편집 시스템의 블럭도이다.4 is a block diagram of a semi-automatic video editing system according to another embodiment of the present invention.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.Hereinafter, the present invention will be described in more detail with reference to the drawings.
본 발명의 실시예에서는 인공지능 기반 동영상 편집 추천 방법을 제시한다. 컴퓨터가 동영상 편집에 사용할 영상 클립들을 편집 순서까지 맞추어 자동으로 추천하여 주면, 편집자가 이를 확인/보완하여 편집을 완성할 수 있도록 하는 방법이다.An embodiment of the present invention proposes an artificial intelligence-based video editing recommendation method. When the computer automatically recommends video clips to be used for video editing in the order of editing, the editor checks/corrects them to complete the editing.
도 1은 본 발명의 일 실시예에 따른 동영상 반자동 편집 시스템의 블럭도이다. 본 발명의 실시예에 따른 동영상 반자동 편집 시스템은, 인공지능과 편집자의 협업으로 동영상을 반자동으로 편집할 수 있게 하는 시스템이다.1 is a block diagram of a semi-automatic video editing system according to an embodiment of the present invention. A semi-automatic video editing system according to an embodiment of the present invention is a system that enables semi-automatic editing of a video by collaboration between artificial intelligence and an editor.
이와 같은 기능을 수행하는 본 발명의 실시예에 따른 동영상 반자동 편집 시스템은, 도시된 바와 같이, 동영상 입력부(110), 동영상 분할부(115), 객체 검출부(120), 객체 인식부(125), 행동 인지부(130), 상황 추론부(상황), 이벤트 탐지부(140), 동영상 클립 추천부(145), 동영상 클립 추가부(150), 동영상 편집부(155)를 포함하여 구성된다.As shown, the video semi-automatic editing system according to an embodiment of the present invention performing such a function includes a video input unit 110, a video division unit 115, an object detection unit 120, an object recognition unit 125, It includes a behavior recognition unit 130, a situation inference unit (situation), an event detection unit 140, a video clip recommendation unit 145, a video clip addition unit 150, and a video editing unit 155.
동영상 입력부(110)는 편집 대상이 되는 동영상 콘텐츠를 입력받아 동영상 분할부(115)로 전달한다.The video input unit 110 receives video content to be edited and transfers it to the video division unit 115 .
동영상 분할부(115)는 동영상 입력부(110)를 통해 전달되는 동영상을 컷(cut) 단위로 분할한다. 참고로, 동영상은 다수의 씬(scene)들로 이루어지는데, 씬은 다수의 샷(shot)들로 이루어지고, 샷은 다수의 컷들로 이루어져 있다. 동영상 분할부(115)는 동영상을 분석하여 컷 단위로 분할하도록 학습된 딥러닝 모델인 동영상 분할 모델을 이용하여 구현할 수 있다.The video division unit 115 divides the video transmitted through the video input unit 110 into cut units. For reference, a video is composed of a plurality of scenes, a scene is composed of a plurality of shots, and a shot is composed of a plurality of cuts. The video segmentation unit 115 may be implemented using a video segmentation model, which is a deep learning model trained to analyze and divide a video into cut units.
객체 검출부(120)는 동영상 분할부(115)에서 분할된 동영상 콘텐츠에서 객체를 검출한다. 객체 인식부(125)는 객체 검출부(120)에서 검출된 객체의 종류, 사람의 경우는 얼굴까지 인식한다. 행동 인지부(130)는 객체 검출부(120)에서 검출된 객체의 행동을 인지한다.The object detection unit 120 detects an object in video content divided by the video division unit 115 . The object recognition unit 125 recognizes the type of object detected by the object detection unit 120 and even a face in the case of a person. The behavior recognition unit 130 recognizes the behavior of the object detected by the object detection unit 120 .
객체 검출부(120), 객체 인식부(125) 및 행동 인지부(130)는 모두 딥러닝 모델로 구현가능하다.All of the object detection unit 120, the object recognition unit 125, and the action recognition unit 130 can be implemented as a deep learning model.
상황 추론부(135)는 객체 검출부(120)에 의한 객체 검출 결과, 객체 인식부(125)에 의한 객체 인식 결과 및 행동 인지부(130)에 의한 행동 인지 결과로부터 상황(context)을 추론한다.The context inference unit 135 infers a context from an object detection result by the object detection unit 120 , an object recognition result by the object recognition unit 125 , and a behavior recognition result by the action recognition unit 130 .
상황 추론부(135)는 객체 검출 결과, 객체 인식 결과 및 행동 인지 결과를 분석하여 상황을 추론하도록 학습된 딥러닝 모델인 상황 추론 모델로 구현할 수 있다.The situation reasoning unit 135 may be implemented as a situation inference model, which is a deep learning model trained to infer a situation by analyzing the object detection result, the object recognition result, and the action recognition result.
이벤트 탐지부(140)는 객체 검출부(120)에 의한 객체 검출 결과, 객체 인식부(125)에 의한 객체 인식 결과 및 행동 인지부(130)에 의한 행동 인지 결과로부터 이벤트를 탐지한다.The event detection unit 140 detects an event from an object detection result by the object detection unit 120 , an object recognition result by the object recognition unit 125 , and a behavior recognition result by the action recognition unit 130 .
이벤트 탐지부(140)는 객체 검출 결과, 객체 인식 결과 및 행동 인지 결과를 분석하여 이벤트를 탐지하도록 학습된 딥러닝 모델인 이벤트 탐지 모델로 구현할 수 있다.The event detection unit 140 may be implemented as an event detection model, which is a deep learning model trained to detect events by analyzing object detection results, object recognition results, and action recognition results.
동영상 클립 추천부(145)는 상황 추론부(135)에 의한 상황 추론 결과와 이벤트 탐지부(140)에 의한 이벤트 탐지 결과 및 장르 정보로부터 동영상 편집 과정에 필요한 동영상 클립들을 추천한다.The video clip recommendation unit 145 recommends video clips necessary for the video editing process based on the situation inference result of the situation inference unit 135, the event detection result of the event detection unit 140, and genre information.
추천되는 동영상 클립들은 편집 동영상에 포함되는 것이 적절하다고 동영상 클립 추천부(145)에 의해 판단된 것들이다.The recommended video clips are those determined by the video clip recommendation unit 145 to be appropriate to be included in the edited video.
동영상 클립 추천부(145)는 상황 추론 결과, 이벤트 탐지 결과 및 장르 정보를 분석하여 동영상 편집 과정에 필요한 동영상 클립들을 추천하도록 학습된 인공지능 모델인 추천 모델로 구현할 수 있다.The video clip recommendation unit 145 may be implemented as a recommendation model, which is an artificial intelligence model trained to recommend video clips necessary for a video editing process by analyzing situation inference results, event detection results, and genre information.
나아가, 동영상 클립 추천부(145)는 추천할 동영상 클립들 각각에 전후 동영상을 일정 시간씩 더 부가하여 추천할 수도 있다.Furthermore, the video clip recommendation unit 145 may recommend additional video clips for a predetermined period of time before and after each video clip to be recommended.
한편, 동영상 클립 추천부(145)는 동영상 클립들의 순서까지 추천할 수 있다. 즉, 동영상 클립 추천부(145)는 추천하는 동영상 클립들을 내용 흐름에 따라 나열하여 준다.Meanwhile, the video clip recommendation unit 145 may recommend even the order of video clips. That is, the video clip recommendation unit 145 arranges the recommended video clips according to the content flow.
동영상 콘텐츠는 하나의 카메라로 촬영한 것이 아닌, 다수의 카메라, 즉, 각기 다른 앵글로 촬영된 동영상들이 포함되어 있을 수 있다. 즉, 동 시간대에 다른 앵글로 촬영된 동영상들이 존재한다.The video content may include videos recorded not by a single camera, but by multiple cameras, that is, videos recorded at different angles. That is, there are videos recorded at different angles at the same time.
따라서, 동영상 클립 추천부(145)에 의한 동영상 클립 순서 추천은, 동 시간대에 서로 다른 앵글로 촬영된 동영상 클립들이 모두 추천되는 경우에 특히 유용하다.Accordingly, recommendation of the order of video clips by the video clip recommendation unit 145 is particularly useful when all video clips shot at different angles at the same time are recommended.
한편, 동영상 클립 추천부(145)로 입력되는 장르 정보는 편집자가 직접 설정/입력 한다.Meanwhile, genre information input to the video clip recommendation unit 145 is directly set/input by an editor.
동영상 클립 추가부(150)는 편집자의 추가 정보를 기초로, 동영상 클립들을 추가로 추천한다. 동영상 클립 추가부(150)에 의해 추가되는 동영상 클립들은 편집자의 입력한 추가 정보를 쿼리로 검색한 것들이다. 검색에는 상황 추론부(135)에 의한 추론 결과와 이벤트 탐지부(140)에 의한 이벤트 탐지 결과가 참조된다.The video clip adder 150 additionally recommends video clips based on the editor's additional information. The video clips added by the video clip adder 150 are those obtained by querying additional information input by the editor. In the search, the result of the reasoning by the situation reasoning unit 135 and the result of event detection by the event detecting unit 140 are referred to.
추가 정보는 편집자가 동영상 클립 추천부(145)에 의해 추천된 동영상 클립들을 보고, 부족하다고 생각되어 추가하고자 하는 상황과 이벤트에 대한 정보를 말한다.The additional information refers to information about situations and events that the editor views the video clips recommended by the video clip recommendation unit 145 and wants to add as they are deemed insufficient.
동영상 클립 추가부(150)는 추가로 추천하는 동영상 클립들과 동영상 클립 추천부(145)에 의해 기추천된 동영상 클립들을 시간 순서에 맞게 자동으로 배열한다.The video clip adding unit 150 automatically arranges additionally recommended video clips and video clips previously recommended by the video clip recommending unit 145 according to time order.
동영상 편집부(155)는 동영상 클립 추천부(145)에 의해 추천되고 동영상 클립 추가부(150)에 의해 추가된 동영상 클립들을 편집하여 편집자가 편집 동영상을 완성하도록 하여 주는 편집 툴 또는 편집 프로그램이다.The video editing unit 155 is an editing tool or editing program that allows an editor to complete an edited video by editing the video clips recommended by the video clip recommendation unit 145 and added by the video clip adding unit 150 .
도 2는 본 발명의 다른 실시예에 따른 동영상 반자동 편집 시스템의 블럭도이다. 본 발명의 실시예에 따른 동영상 반자동 편집 시스템은, 도 1에 제시된 시스템에서 장르 추론부(160)가 추가되었다는 점에서 차이가 있다.2 is a block diagram of a semi-automatic video editing system according to another embodiment of the present invention. The semi-automatic video editing system according to an embodiment of the present invention differs from the system shown in FIG. 1 in that a genre inference unit 160 is added.
장르 추론부(160)는 객체 검출부(120)에 의한 객체 검출 결과, 객체 인식부(125)에 의한 객체 인식 결과 및 행동 인지부(130)에 의한 행동 인지 결과, 상황 추론부(135)에 의한 상황 추론 결과 및 이벤트 탐지부(140)에 의한 이벤트 탐지 결과를 분석하여 동영상 콘텐츠의 장르를 추론하도록 학습된 인공지능 모델이다.The genre inference unit 160 determines the object detection result by the object detection unit 120, the object recognition result by the object recognition unit 125, the action recognition result by the action recognition unit 130, and the situation reasoning unit 135. It is an artificial intelligence model trained to infer the genre of video content by analyzing the situation inference result and the event detection result by the event detection unit 140 .
도 1에 도시된 시스템의 경우 동영상 콘텐츠의 장르를 편집자가 설정/입력하였지만, 본 발명의 실시예에 따른 동영상 반자동 편집 시스템은 동영상 콘텐츠의 장르 추론이 자동으로 수행된다는 점에서 차이가 있다.In the case of the system shown in FIG. 1, the editor sets/inputs the genre of the video content, but the semi-automatic video editing system according to an embodiment of the present invention is different in that the genre of the video content is automatically inferred.
도 3은 본 발명의 또 다른 실시예에 따른 동영상 반자동 편집 시스템의 블럭도이다. 본 발명의 실시예에 따른 동영상 반자동 편집 시스템은, 동영상 클립 추천부(145)의 입력에 편집자의 편집 의도가 더 포함된다는 점에서, 도 1에 도시된 시스템과 차이가 있다.3 is a block diagram of a semi-automatic video editing system according to another embodiment of the present invention. The semi-automatic video editing system according to an embodiment of the present invention is different from the system shown in FIG. 1 in that the editor's editing intention is further included in the input of the video clip recommendation unit 145 .
편집 의도는 편집자가 비중을 두고 있는 상황 정보와 이벤트 정보를 말한다. 이에 따라, 동영상 클립 추천부(145)는 동영상 편집 과정에 필요한 동영상 클립들을 추천함에 있어, 편집 의도까지 분석하게 된다.Editorial intent refers to situational information and event information that the editor puts weight on. Accordingly, the video clip recommendation unit 145 analyzes the editing intention when recommending video clips necessary for the video editing process.
도 4는 본 발명의 또 다른 실시예에 따른 동영상 반자동 편집 시스템의 블럭도이다. 본 발명의 실시예에 따른 동영상 반자동 편집 시스템은, 동영상 클립 추천부(145)의 전단에 선별부(165)가 추가된다는 점에서, 도 1에 제시된 시스템과 차이가 있다.4 is a block diagram of a semi-automatic video editing system according to another embodiment of the present invention. The semi-automatic video editing system according to an embodiment of the present invention is different from the system shown in FIG. 1 in that the selection unit 165 is added in front of the video clip recommendation unit 145.
선별부(165)는 상황 추론부(135)에 의한 상황 추론 결과들과 이벤트 탐지부(140)에 의한 이벤트 탐지 결과들 중 편집자의 편집 의도에 부합하는 상황 추론 결과와 이벤트 탐지 결과만을 선별하여 동영상 클립 추천부(145)로 전달한다.The selection unit 165 selects only the situation inference results and event detection results that meet the editing intention of the editor among the situation inference results by the situation reasoning unit 135 and the event detection results by the event detection unit 140, It is transmitted to the clip recommendation unit 145.
이에 따라, 동영상 클립 추천부(145)에서 편집자의 편집 의도에 부합하지 않는 동영상 클립이 추천되는 것을 사전에 배제할 수 있다.Accordingly, the recommendation of a video clip that does not meet the editing intention of the editor in the video clip recommendation unit 145 may be excluded in advance.
지금까지, 컴퓨터와 사람의 협업을 통한 동영상 반자동 편집을 위한 인공지능 기반 동영상 편집 추천 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.So far, the artificial intelligence-based video editing recommendation method for semi-automatic video editing through computer-human collaboration has been described in detail with a preferred embodiment.
동영상 편집자가 동영상을 편집하여 제작함에 있어, 필요한 영상 클립들을 분석하여 추출하는 단순 작업을 인공지능이 대신하여 동영상 편집 시간을 줄이는 방법이다.When a video editor edits and produces a video, artificial intelligence replaces the simple task of analyzing and extracting necessary video clips to reduce video editing time.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.Meanwhile, it goes without saying that the technical spirit of the present invention can also be applied to a computer-readable recording medium containing a computer program for performing the functions of the apparatus and method according to the present embodiment. In addition, technical ideas according to various embodiments of the present invention may be implemented in the form of computer readable codes recorded on a computer readable recording medium. The computer-readable recording medium may be any data storage device that can be read by a computer and store data. For example, the computer-readable recording medium may be ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, hard disk drive, and the like. In addition, computer readable codes or programs stored on a computer readable recording medium may be transmitted through a network connected between computers.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.In addition, although the preferred embodiments of the present invention have been shown and described above, the present invention is not limited to the specific embodiments described above, and the technical field to which the present invention belongs without departing from the gist of the present invention claimed in the claims. Of course, various modifications are possible by those skilled in the art, and these modifications should not be individually understood from the technical spirit or perspective of the present invention.

Claims (12)

  1. 동영상 콘텐츠를 컷 단위로 분할하는 단계;Dividing video content into cut units;
    분할된 동영상 콘텐츠에서 객체를 검출하는 단계;Detecting an object from segmented video content;
    검출된 객체를 인식하는 단계;recognizing the detected object;
    검출된 객체의 행동을 인지하는 단계;recognizing the behavior of the detected object;
    객체 검출 결과, 객체 인식 결과, 행동 인지 결과로부터 상황을 추론하는 단계;inferring a situation from an object detection result, an object recognition result, and an action recognition result;
    객체 검출 결과, 객체 인식 결과, 행동 인지 결과로부터 이벤트를 탐지하는 단계;detecting an event from an object detection result, an object recognition result, and an action recognition result;
    상황 추론 결과, 이벤트 탐지 결과 및 장르 정보로부터 편집 과정에 필요한 동영상 클립들을 추천하는 단계;를 포함하는 것을 특징으로 하는 동영상 편집 추천 방법.A video editing recommendation method comprising the steps of recommending video clips necessary for an editing process based on situation inference results, event detection results, and genre information.
  2. 추천 단계는,The recommended step is
    동영상 클립들과 함께 동영상 클립들의 순서를 추천하는 것을 특징으로 하는 동영상 편집 추천 방법.A video editing recommendation method, characterized by recommending an order of video clips together with video clips.
  3. 청구항 2에 있어서,The method of claim 2,
    순서가 추천되는 동영상 클립들은,The video clips in the recommended order are:
    동 시간대에 다른 앵글로 촬영된 것들을 포함하는 것을 특징으로 하는 동영상 편집 추천 방법.A method for recommending video editing, characterized in that it includes images taken at different angles at the same time.
  4. 청구항 1에 있어서,The method of claim 1,
    장르 정보는,genre information,
    편집자가 설정하는 것을 특징으로 하는 동영상 편집 추천 방법.A video editing recommendation method characterized by setting by an editor.
  5. 청구항 1에 있어서,The method of claim 1,
    장르 정보는,genre information,
    인공지능 모델을 이용하여 객체 검출 결과, 객체 인식 결과, 행동 인지 결과, 상황 추론 결과 및 이벤트 탐지 결과 중 적어도 하나로부터 추론되는 것을 특징으로 하는 동영상 편집 추천 방법.A method for recommending video editing, characterized in that inference is made from at least one of object detection results, object recognition results, behavioral recognition results, situation inference results, and event detection results using an artificial intelligence model.
  6. 청구항 1에 있어서,The method of claim 1,
    추천 단계는,The recommended step is
    편집자의 편집 의도를 더 반영하여, 편집 과정에 필요한 동영상 클립들을 추천하는 것을 특징으로 하는 동영상 편집 추천 방법.A video editing recommendation method characterized by recommending video clips necessary for an editing process by further reflecting the editor's editing intention.
  7. 청구항 6에 있어서,The method of claim 6,
    편집 의도는,The editorial intent is
    편집자가 설정한 상황 정보와 이벤트 정보를 포함하는 것을 특징으로 하는 동영상 편집 추천 방법.A video editing recommendation method characterized by including situation information and event information set by an editor.
  8. 청구항 1에 있어서,The method of claim 1,
    추천 단계는,The recommended step is
    추천할 동영상 클립들 각각에 전후 동영상을 일정 시간 씩 더 부가하여 추천하는 것을 특징으로 하는 동영상 편집 추천 방법.A method for recommending video editing, characterized in that adding before and after video clips to each of the video clips to be recommended for a predetermined period of time is additionally recommended.
  9. 청구항 1에 있어서,The method of claim 1,
    추천된 동영상 클립들에, 편집자가 입력한 추가 정보를 기초로 동영상 클립들을 추가하는 것을 특징으로 하는 동영상 편집 추천 방법.A video editing recommendation method characterized by adding video clips to recommended video clips based on additional information input by an editor.
  10. 동영상 콘텐츠를 컷 단위로 분할하는 분할부;a division unit that divides the video content into cut units;
    분할된 동영상 콘텐츠에서 객체를 검출하는 검출부;a detector for detecting an object in the segmented video content;
    검출된 객체를 인식하는 인식부;a recognizing unit recognizing the detected object;
    검출된 객체의 행동을 인지하는 인지부;a recognition unit recognizing the behavior of the detected object;
    객체 검출 결과, 객체 인식 결과, 행동 인지 결과로부터 상황을 추론하는 추론부;an inference unit for inferring a situation from an object detection result, an object recognition result, and an action recognition result;
    객체 검출 결과, 객체 인식 결과, 행동 인지 결과로부터 이벤트를 탐지하는 탐지부;a detection unit that detects an event from an object detection result, an object recognition result, and an action recognition result;
    상황 추론 결과, 이벤트 탐지 결과 및 장르 정보로부터 편집 과정에 필요한 동영상 클립들을 추천하는 추천부;를 포함하는 것을 특징으로 하는 동영상 편집 추천 시스템.A video editing recommendation system comprising: a recommendation unit for recommending video clips necessary for an editing process based on situation reasoning results, event detection results, and genre information.
  11. 동영상 콘텐츠를 컷 단위로 분할하는 단계;Dividing video content into cut units;
    분할된 동영상 콘텐츠에서 상황을 추론하는 단계;Inferring a situation from segmented video content;
    분할된 동영상 콘텐츠에서 이벤트를 탐지하는 단계;Detecting an event in the segmented video content;
    상황 추론 결과, 이벤트 탐지 결과 및 장르 정보로부터 편집 과정에 필요한 동영상 클립들을 추천하는 단계;를 포함하는 것을 특징으로 하는 동영상 편집 추천 방법.A video editing recommendation method comprising the steps of recommending video clips necessary for an editing process based on situation inference results, event detection results, and genre information.
  12. 동영상 콘텐츠를 컷 단위로 분할하는 분할부;a division unit that divides the video content into cut units;
    분할된 동영상 콘텐츠에서 상황을 추론하는 추론부;an inference unit that infers a situation from the segmented video content;
    분할된 동영상 콘텐츠에서 이벤트를 탐지하는 탐지부;a detection unit for detecting an event in the segmented video content;
    상황 추론 결과, 이벤트 탐지 결과 및 장르 정보로부터 편집 과정에 필요한 동영상 클립들을 추천하는 추천부;를 포함하는 것을 특징으로 하는 동영상 편집 추천 시스템.A video editing recommendation system comprising: a recommendation unit for recommending video clips necessary for an editing process based on situation reasoning results, event detection results, and genre information.
PCT/KR2022/012475 2021-12-07 2022-08-22 Artificial intelligence-based video edit recommendation method for semi-automatic video editing by means of computer-human cooperation WO2023106554A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0173357 2021-12-07
KR1020210173357A KR102553519B1 (en) 2021-12-07 2021-12-07 AI-based video editing recommendation method for semi-automatic video editing through computer-human collaboration

Publications (1)

Publication Number Publication Date
WO2023106554A1 true WO2023106554A1 (en) 2023-06-15

Family

ID=86730576

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/012475 WO2023106554A1 (en) 2021-12-07 2022-08-22 Artificial intelligence-based video edit recommendation method for semi-automatic video editing by means of computer-human cooperation

Country Status (2)

Country Link
KR (1) KR102553519B1 (en)
WO (1) WO2023106554A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110131617A (en) * 2010-05-31 2011-12-07 임용수 A creating system and creating method for interactive dynamic directing contents
JP2016105597A (en) * 2011-11-14 2016-06-09 アップル インコーポレイテッド Generation of multimedia clip
KR20170077000A (en) * 2015-12-27 2017-07-05 전자부품연구원 Auto Content Creation Methods and System based on Content Recognition Technology
JP2019213160A (en) * 2018-06-08 2019-12-12 秀輝 衣斐 Video editing apparatus, video editing method, and video editing program
KR102315699B1 (en) * 2020-06-26 2021-10-21 주식회사 티앤엠테크 Method, apparatus and computer program for determining event occurrence of video data using artificial intelligence

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110131617A (en) * 2010-05-31 2011-12-07 임용수 A creating system and creating method for interactive dynamic directing contents
JP2016105597A (en) * 2011-11-14 2016-06-09 アップル インコーポレイテッド Generation of multimedia clip
KR20170077000A (en) * 2015-12-27 2017-07-05 전자부품연구원 Auto Content Creation Methods and System based on Content Recognition Technology
JP2019213160A (en) * 2018-06-08 2019-12-12 秀輝 衣斐 Video editing apparatus, video editing method, and video editing program
KR102315699B1 (en) * 2020-06-26 2021-10-21 주식회사 티앤엠테크 Method, apparatus and computer program for determining event occurrence of video data using artificial intelligence

Also Published As

Publication number Publication date
KR102553519B1 (en) 2023-07-10
KR20230085311A (en) 2023-06-14

Similar Documents

Publication Publication Date Title
CN111327945B (en) Method and apparatus for segmenting video
US6578040B1 (en) Method and apparatus for indexing of topics using foils
JP3175632B2 (en) Scene change detection method and scene change detection device
JP4920395B2 (en) Video summary automatic creation apparatus, method, and computer program
WO2021133001A1 (en) Semantic image inference method and device
JP2002238027A (en) Video and audio information processing
US5790236A (en) Movie processing system
US11037604B2 (en) Method for video investigation
CN111372091B (en) Live content risk information control method and system
WO2021125747A1 (en) Method and device for controlling video playback
WO2014181969A1 (en) Recording medium recorded with multi-track media file, method for editing multi-track media file, and apparatus for editing multi-track media file
CN114902687A (en) Game screen recording method and device and computer readable storage medium
WO2023106554A1 (en) Artificial intelligence-based video edit recommendation method for semi-automatic video editing by means of computer-human cooperation
WO2024019337A1 (en) Video enhancement method and apparatus
WO2013077546A1 (en) Apparatus and method for detecting a scene change in a stereoscopic video
WO2017116015A1 (en) Content recognition technology-based automatic content generation method and system
WO2024085711A1 (en) Method and system for providing image editing service using artificial intelligence
WO2022270660A1 (en) Video stream processing method based on deep learning-based central object, and system therefor
KR102202577B1 (en) Method and apparatus for de-identificationing personal data based on deep learning
WO2022270659A1 (en) Deep-learning-based video streaming method and system therefor
Corridoni et al. Film semantic analysis
WO2016203469A1 (en) A digital media reviewing system and methods thereof
WO2022114356A1 (en) System and method for editing video, using streaming technology
WO2023121154A1 (en) A method and system for capturing a video in a user equipment
WO2022059817A1 (en) Ai-based minimal contextual exploration method on basis of meta-information recognition that can be known from dialogues and backgrounds of images and videos

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22904390

Country of ref document: EP

Kind code of ref document: A1