WO2023096392A1 - System for automatically producing video - Google Patents

System for automatically producing video Download PDF

Info

Publication number
WO2023096392A1
WO2023096392A1 PCT/KR2022/018776 KR2022018776W WO2023096392A1 WO 2023096392 A1 WO2023096392 A1 WO 2023096392A1 KR 2022018776 W KR2022018776 W KR 2022018776W WO 2023096392 A1 WO2023096392 A1 WO 2023096392A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
fhd
production
image
unit
Prior art date
Application number
PCT/KR2022/018776
Other languages
French (fr)
Korean (ko)
Inventor
김도연
Original Assignee
주식회사 콘텐츠민주주의
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 콘텐츠민주주의 filed Critical 주식회사 콘텐츠민주주의
Publication of WO2023096392A1 publication Critical patent/WO2023096392A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Definitions

  • the present invention relates to an automatic video production system, and relates to an automatic video production system capable of producing high-quality video content at low cost without the need for professional manpower for video production (shooting and editing) through the design of an artificial intelligence model.
  • Republic of Korea Patent Registration No. 10-0867407 (2008.11.06.) discloses a mobile immersive virtual environment providing system.
  • the patent document discloses a system that can be easily applied even in environments with various harmful factors, such as temperature and humidity changes, vibration, and inflow of dust, and requires video production, but the general public without video production experience It does not disclose a system that can be provided with a video production result without experiencing a problem.
  • An object of the present invention is to devise a system capable of producing professional-level images without professional knowledge/experience in image production, and an object of the present invention is to automate image production, that is, image shooting and editing.
  • the present invention is an automatic video production system, including a video production device, wherein the video production device includes a high-definition image receiving unit for receiving 4K high-definition video from a 4K camera in real time, and at least two 4K high-definition videos based on a first artificial intelligence model.
  • a high-definition image segmentation unit that divides into FHD images, an image selector that selects one FHD image from among at least two FHD images based on the second artificial intelligence model, and inserts one FHD image into a video to be provided to a user terminal It includes a video production department.
  • the first artificial intelligence model may divide a 4K high-definition image into at least two FHD images using at least one of a face recognition algorithm, a motion recognition algorithm, and an object recognition algorithm.
  • the second artificial intelligence model may select one FHD image based on at least one of the speaker's speech content or the speaker's motion in the 4K high-definition video.
  • the second artificial intelligence model selects another FHD image from among at least two or more FHD images according to at least one of the speaker's speech content or the speaker's motion in the 4K high-definition video, and the video producer selects one FHD video inserted into the video. It is possible to change from one FHD image to another FHD image.
  • one FHD image can be selected from among the remaining FHD images excluding the FHD image in which the NG cut has occurred among at least two or more FHD images.
  • the second artificial intelligence model may determine the NG cut when the speaker does not perform at least one of voice utterance or motion performance for 5 seconds or longer.
  • the video production apparatus further includes a production video output/modification unit, and the user terminal requests streaming of the video production completed to the production video output/modification unit, and the production video output/modification unit responds to the user terminal's request.
  • a video that has been produced can be streamed to the display unit of the terminal.
  • the production video output/editing unit may request a user terminal to confirm whether or not an NG cut has occurred in the video that has been produced.
  • the production video output/editing unit may request NG cut generation time information from the user terminal.
  • the user terminal can request the production video output/revision unit to modify the NG cut, and the production video output/revision unit responds to the NG cut modification request and deletes the FHD video in which the NG cut occurred from the video that has been produced and sends the NG cut
  • One FHD video can be selected and inserted in the time zone where the NG cut occurred.
  • the production video output/editing unit may transmit the user terminal's response to the payment request/confirmation unit of the user management device.
  • the present invention can provide a system capable of producing professional-level videos without professional knowledge/experience in video production, and can automate video shooting and editing.
  • FIG. 1 is a schematic diagram of a video production system according to an embodiment of the present invention.
  • FIG. 2 is a schematic diagram of a user management device according to an embodiment of the present invention.
  • FIG. 3 is a schematic diagram of a video recording device according to an embodiment of the present invention.
  • FIG. 4 is a schematic diagram of a video production device according to an embodiment of the present invention.
  • FIG. 5 is a conceptual diagram of an external appearance of a video production booth including a video recording device and a video production device.
  • computing device 340 monitor
  • the automatic video production system 10 includes a user terminal 100 , a user management device 200 , a video capture device 300 and a video production device 400 .
  • the user terminal 100 , the user management device 200 , the video recording device 300 and the video production device 400 are connected through a network and can transmit/receive data to each other.
  • the user management device 200 includes a customer information confirmation unit 210, a customer information DB 220, a reservation schedule providing/confirmation unit 230, a reservation schedule DB 240, and an activation unit 250. and a payment request/confirmation unit 260.
  • the customer information checking unit 210 Upon receiving a log-in request from the user terminal 100, the customer information checking unit 210 checks whether the log-in information is pre-stored in the customer information DB 220 and whether it matches pre-stored customer information. When it is determined that the login information is not pre-stored in the customer information DB 220 or does not match pre-stored customer information, login request rejection information may be provided to the user terminal 100 . When it is confirmed that the login information matches the customer information pre-stored in the customer information DB 220, the login of the user terminal 100 may be accepted.
  • the reservation schedule providing/confirmation unit 230 stores the reservation schedule DB 240 at the same time as the user terminal 100 logs in, after a predetermined time after the user terminal 100 logs in, or at the request of the user terminal 100. Pre-stored reservation schedule information may be provided to the user terminal 100 . Reservation schedule information includes year/month/day/time information. According to an embodiment of the present invention, after the year/month/day information is primarily provided to the user terminal 100, the year/month/day selection information of the user terminal 100 is provided by the reservation schedule providing/confirming unit 230 Reservation schedule information may be provided to the user terminal 100 in a manner in which time information is secondarily provided to the user terminal 100 after being received by ).
  • the user terminal 100 provides the time selection information to the reservation schedule providing/confirming unit 230 .
  • the aforementioned reservation schedule providing method is not limited thereto, and a known reservation schedule providing method may be used.
  • the reservation schedule information may be provided separately from the reservation schedule and the non-reservation schedule, and it is preferable to disable the reservation schedule so that the user terminal 100 cannot select the reservation schedule.
  • the activation unit 250 may activate the video recording device 300 and the video production device 400 according to a schedule reserved by the user terminal 100 by selection.
  • the activation unit 250 may deactivate the video recording device 300 and the video production device 400 when there is no reserved schedule or when the reserved schedule has expired.
  • the activation/deactivation described above may be performed through the controller 380 of the video recording device 300 to be described later.
  • activation may mean switching the power of the video recording device 300 and the video production device 400, which will be described later, from Off to On, and inactivation, on the contrary, turns the power of each device on. It may mean switching from Off to On.
  • a video recording device 300 includes a chroma key for background synthesis, a condenser microphone 310 for recording a user's voice, a 4K camera 320 for photographing a user, and a chroma key for synthesizing video.
  • a computing device 330 capable of displaying content to be displayed and capable of manipulation by a user, a monitor 340 for displaying at least one of the user and the content, an operator PC 350 running video production software, lighting for chroma key 360 ), a user light 370 and a control unit 380 may be included.
  • the condenser microphone 310, 4K camera 320, computing device 330, monitor 340, operator PC 350, chroma key lighting 360 and user lighting 370 are IOT-based devices.
  • a known IOT-based device can be used, and an IOT environment can be configured in a known method.
  • the controller 380 manages each of the devices 310, 320, 330, 340, 350, 360, and 370 and controls data processing between the devices.
  • the video production device 400 includes a high-quality video receiving unit 410, a high-quality video segmentation unit 420, an image selection unit 430, a video production unit 440, and a production video output/modification unit 450.
  • a production video providing unit 460 and a control unit 470 are included.
  • the control unit 470 manages each unit 410, 420, 430, 440, 450, and 460, and may control data processing between each unit.
  • the high-definition video receiver 410 may receive 4K high-definition video from the 4K camera 320 of the video recording device 300 in real time. According to an embodiment of the present invention, one 4K high-definition video can be received in real time from one 4K camera 320 . According to another embodiment of the present invention, two or more 4K high-definition images may be received in real time from two or more 4K cameras 320 .
  • the high-definition image segmentation unit 420 may divide the 4K high-definition image into at least two FHD images based on the first artificial intelligence model.
  • the screen size standard mainly used in broadcasting is FHD (Full-HD). Since the 4K high-definition video has a screen size four times that of the FHD video, the high-definition video dividing unit 420 may divide the 4K high-definition video into at least two or more FHD images.
  • one 4K high-definition video can be divided into four FHD videos, and the high-definition video division unit 420 must divide the 4K high-definition video into four FHD videos. It doesn't mean that you have to split it into images.
  • the first artificial intelligence model of the high-definition image segmentation unit 420 converts at least two or more 4K high-definition images by using at least one or more of a face recognition algorithm, a motion recognition algorithm, and an object recognition algorithm. It can be segmented into FHD video.
  • the face recognition algorithm, motion recognition algorithm, and object recognition algorithm may be known recognition algorithms.
  • the image selection unit 430 may select one FHD image from among at least two or more FHD images based on the second artificial intelligence model, and the video production unit 440 may select the selected one FHD image as a video to be provided to the user terminal. can be inserted.
  • the first artificial intelligence model divides one 4K high-definition image into three FHD images and the first FHD image, the second FHD image, and the third FHD image are generated, while the 4K high-definition image is received, First to third FHD images exist, and the second artificial intelligence model selects one FHD image most suitable for the purpose of producing a video from among the first to third FHD images.
  • the second artificial intelligence model may select one FHD image from among at least two or more FHD images based on at least one of the speaker's speech content or the speaker's motion in the 4K high-definition image.
  • the 4K high-definition video is an introduction video for earrings
  • the first utterance of a speaker in the 4K high-definition video is a greeting
  • the first and second FHD videos are a full speaker video and a close-up video of the speaker, respectively
  • the third FHD video If it is an image of a potted plant prepared in the space where the speaker is located, the second artificial intelligence model selects the first FHD image from among the first to third FHD images.
  • the full speaker image refers to an image including the speaker and the background around the speaker
  • the speaker close image refers to an image centered on the speaker.
  • the video production unit 440 inserts the first FHD image into the video.
  • the second artificial intelligence model can select another FHD video from among at least two or more FHD videos according to at least one of the speaker's utterance content or the speaker's motion in the 4K high-definition video, and the video production unit selects the FHD video inserted into the video. You can change from one FHD video to another FHD video.
  • the second artificial intelligence model After maintaining the selection of the FHD image for 1 minute, the second FHD image is selected, and the video production unit 440 inserts the first FHD image into the video for 1 minute, and then converts the FHD video to be inserted into the video into the second FHD video. change
  • the second artificial intelligence model determines that an NG cut has occurred in an FHD image inserted into a video
  • one FHD image can be selected from among the remaining FHD images excluding the FHD image in which the NG cut has occurred among at least two or more FHD images.
  • the second artificial intelligence model may determine the NG cut when the speaker does not perform at least one of voice utterance or motion performance for 5 seconds or more.
  • a third FHD image may be selected from among the first FHD image and the third FHD image.
  • the video production unit 440 changes the FHD video to be inserted into the video into a third FHD video.
  • the second artificial intelligence model may be an artificial intelligence model pre-learned to select one FHD image from among at least two FHD images based on at least one of a speaker's speech content or a speaker's motion in a 4K high-definition image.
  • the second artificial intelligence model uses various types of videos such as lecture videos, documentary videos, and YouTube videos as learning videos, and identifies a central topic from the contents of the speaker's speech in the learning video, It is possible to learn to match the type of image being output (full full image, close image, background image, object image, etc.).
  • the second artificial intelligence model determines that an NG cut has occurred in an FHD image inserted into a video, it is pretrained to select one FHD image from among the remaining FHD images excluding the FHD image in which the NG cut has occurred among at least two or more FHD images.
  • It can be an artificial intelligence model.
  • the second artificial intelligence model recognizes the 'NG' or 'cut' voice of the speaker (e.g., director) by using behind-the-scenes videos of video production such as lecture videos, documentary videos, dramas, movies, and YouTube videos as learning videos. ' or 'cut' can be learned to recognize the situation before the voice occurs as an NG cut.
  • the production video output/modification unit 450 When the production video output/modification unit 450 receives a video production completion signal from the video production unit 440, the production video output/modification unit 450 transmits the video production completion information to the user terminal 100 and the user terminal ( 100) may request the production video output/modification unit 450 to stream a video that has been produced, and the production video output/modification unit 450 responds to the request of the user terminal 100 to the user terminal 100.
  • the production completed video can be streamed to the display unit of the .
  • the production video output/modification unit 450 may request the user terminal 100 to confirm whether or not an NG cut has occurred in the video that has been produced, and the user terminal 100 When responding to the confirmation request that an NG cut has occurred in a video that has been produced, the production video output/modifying unit 450 may request NG cut generation time information from the user terminal 100, and the user terminal 100 may provide NG cut generation time information to the production video output/modification unit 450.
  • the user terminal 100 may request the production video output/modification unit 450 to modify the NG cut together with or separately from the provision of NG cut generation time information, and the production video output/modification unit 450
  • the FHD video in which the NG cut has occurred is deleted from the video that has been produced, and one FHD video can be selected and inserted in the time zone where the NG cut has occurred.
  • the production video output/modification unit 450 may re-request the selection of whether or not an NG cut occurs while providing the modified production video to the user terminal 100, and the user terminal 100 responds again that an NG cut has occurred If so, the deletion of NG cuts and the insertion of FHD videos are repeated.
  • the production video output/modification unit 450 responds to the user terminal 100
  • the production video output/modification unit 450 may be transmitted to the payment request/confirmation unit 260 of the user management device 200, and the payment request/confirmation unit 260 may request payment from the user terminal 100.
  • the payment completion signal may be provided to the production video providing unit 460 of the video production device 400, and the production video The study 460 may provide the created video to the user terminal 100 .
  • the production video providing unit 460 of the video production device 400 may provide the created video to the user terminal 100 .
  • the user underlines the lecture content displayed through the laptop 330 (which may be any one of a desktop, a laptop, a tablet PC, etc.) and reads the lecture content, or writes additional explanations in the lecture content. It is assumed that the lecture can be conducted in this manner, and that lecture content can be explained only verbally without a user's action.
  • the high-definition video receiver 420 receives a 4K high-definition lecture video including both users and lecture contents from the 4K webcam 320 .
  • the contents of the lecture are synthesized with the aforementioned chroma key for background synthesis.
  • the high-definition video segmentation unit 420 divides the lecture video into three FHD images, that is, a user close video, a lecture content video, and a full user and lecture content video (hereinafter referred to as 'full video' for convenience of explanation).
  • the user close image means an image centered on the user's face or an image in which both the user's face and at least a part of the body are displayed. Both the upper and lower body of the user do not have to appear, and only the upper body may appear.
  • the lecture content image refers to an image output to the display unit of the laptop 330 .
  • a full video refers to a video in which both the user and lecture contents appear on a single screen.
  • the artificial intelligence model of the image selector 430 may select a full image as the starting image of a video based on the characteristics of the lecture video, and the full image may be transmitted to the video production unit 440 and inserted into the starting image of the video.
  • the video selection unit 430 may select the lecture content video, and the lecture content video is a video. It is delivered to the production unit 440 and the full video can be converted into a lecture content video.
  • the image selector 430 may select a user close-up image, and the user-closed image may be transmitted to the video production unit 440 to convert the lecture content image into a user close-up image. there is.
  • the video selection unit 430 selects the lecture content video again.
  • the lecture content video may be transmitted to the video production unit 440 and the user close video may be converted into a lecture content video.
  • An example is the case where a user creates a video introducing a bag with a user review while holding the bag in his hand.
  • the high-definition video receiving unit 420 receives a 4K high-definition introduction video including a full video including the user and the bag from the 4K webcam 320 .
  • the high-definition image segmentation unit 420 may divide the introduction video into three FHD images, that is, a user close image, a bag close image, and a full image of the user and bag.
  • the user close image means an image centered on the user's face or an image in which the user's face and body parts are displayed. As described above, both the upper and lower body of the user do not have to appear.
  • the bag closing video refers to an image centered on the bag, and the full video refers to an image in which the user and the bag are both displayed on one screen.
  • the artificial intelligence model of the image selection unit 430 may select a full image as a starting image of a video based on the characteristics of a product introduction video, and the full image may be transmitted to the video production unit 440 and inserted into the starting video of the video. .
  • the image selection unit 430 may select a bag closing image, and the bag closing image may be transmitted to the video production unit 440 to convert the full image into a bag closing image.
  • the image selector 430 may select a user close-up image, and the user close-up image is transmitted to the video production unit 440, and the bag close image is converted into a user close-up image. can be converted
  • the video selection unit 430 may select a full video, and the full video is sent to the video production unit 440. It is delivered so that the user close video can be converted to a full video.
  • FIG. 5 is a conceptual diagram of an external appearance of a video production booth including a video recording device and a video production device.
  • the video production booth can be transported by vehicle and has a certain internal space.
  • the video production booth may mean a container in the form of a box or a house in the form of a container.
  • the video production booth suffices if it is in a form convenient for production, transport, and installation, and as described above, it is not limited to a box form or a container form.
  • the video production booth includes a door for the user's access, and a known technology used in the booth production method can be applied to the video production booth.
  • chroma-key lectures that is, all types of lectures that require synthesis of lecture contents, and news-type shooting. Since it is filmed in a green chromakey background and the background or lecture contents are synthesized, it is possible to give a lecture like an announcer or VJ. You can also create natural and lively images by using the prompter.

Abstract

The present invention provides a system for automatically producing a video, which comprises a video production device. The video production device comprises: a high-definition image reception unit for receiving a 4K high-definition image from a 4K camera in real time; a high-definition image segmentation unit for segmenting the 4K high-definition image into at least two FHD images on the basis of a first artificial intelligence model; an image selection unit for selecting one FHD image from among the at least two FHD images on the basis of a second artificial intelligence model; and a video production unit for inserting the one FHD image into a video to be provided to a user terminal.

Description

동영상 자동 제작 시스템Video automatic production system
본 발명은 동영상 자동 제작 시스템에 관한 것으로서 인공지능 모델의 설계를 통해 동영상 제작(촬영 및 편집)을 위한 전문 인력 없이도 고품질의 영상 콘텐츠를 저렴한 비용에 제작할 수 있는 동영상 자동 제작 시스템에 관한 것이다.The present invention relates to an automatic video production system, and relates to an automatic video production system capable of producing high-quality video content at low cost without the need for professional manpower for video production (shooting and editing) through the design of an artificial intelligence model.
코로나19의 발생 및 확산으로 인해 비대면 언텍트 시대가 도래하였다. 국민들의 영상 시청 시간이 자연스럽게 증가하면서 영상 제작(촬영 및 편집)에 관심을 보이는 국민들의 수가 점차 증가하고 있으며, 비대면 강의/미팅 등에 대한 수요가 증가하면서 영상 제작이 필요한 국민들의 수 또한 점차 증가하고 있다.Due to the outbreak and spread of COVID-19, the non-face-to-face untact era has arrived. As people's video viewing time naturally increases, the number of people showing interest in video production (filming and editing) is gradually increasing. there is.
하지만, 영상 제작 경험이 없는 일반인으로서는 촬영 장비/장소 및 편집 장비/장소의 마련이 쉽지 않으며, 카메라, 마이크, 조명, 필요에 따라 크로마키의 최적의 위치를 선정하는데 어려움을 겪게 된다. 또한, 촬영한 영상을 실용적 목적으로 빨리 편집할 필요가 있을 때 편집 방법에 어려움을 겪을 것이다.However, it is not easy for ordinary people without video production experience to prepare shooting equipment/place and editing equipment/place, and it is difficult to select the optimal location of a camera, microphone, lighting, and chroma key as needed. In addition, when it is necessary to quickly edit the captured video for practical purposes, it will be difficult to edit.
대한민국 등록특허공보 제10-0867407호(2008.11.06.)는 이동식 몰입형 가상환경제공 시스템을 개시한다. 하지만, 상기 특허문헌은 다양한 유해 요소 예컨대, 온도 및 습도의 변화, 진동, 먼지의 유입 등의 환경에서도 쉽게 적용할 수 있는 시스템을 개시할 뿐, 영상 제작이 필요하나 영상 제작 경험이 없는 일반인이 수고로움을 겪지 않으면서 영상 제작 결과물을 제공받을 수 있는 시스템을 개시하는 것은 아니다.Republic of Korea Patent Registration No. 10-0867407 (2008.11.06.) discloses a mobile immersive virtual environment providing system. However, the patent document discloses a system that can be easily applied even in environments with various harmful factors, such as temperature and humidity changes, vibration, and inflow of dust, and requires video production, but the general public without video production experience It does not disclose a system that can be provided with a video production result without experiencing a problem.
본 발명은 영상 제작에 대한 전문적인 지식/경험 없이도 전문가급의 영상을 제작할 수 있는 시스템을 고안하는데 목적이 있으며, 영상 제작 즉, 영상 촬영 및 편집을 자동화하는데 목적이 있다.An object of the present invention is to devise a system capable of producing professional-level images without professional knowledge/experience in image production, and an object of the present invention is to automate image production, that is, image shooting and editing.
본 발명은 동영상 자동 제작 시스템으로서 동영상 제작 장치를 포함하며, 동영상 제작 장치는 4K 카메라로부터 4K 고화질 영상을 실시간으로 수신하는 고화질 영상 수신부, 제1 인공지능 모델에 기반하여 4K 고화질 영상을 적어도 2개 이상의 FHD 영상으로 분할하는 고화질 영상 분할부, 제2 인공지능 모델에 기반하여 적어도 2개 이상의 FHD 영상 중 하나의 FHD 영상을 선택하는 영상 선택부, 하나의 FHD 영상을 사용자 단말기에 제공할 동영상에 삽입하는 동영상 제작부를 포함한다.The present invention is an automatic video production system, including a video production device, wherein the video production device includes a high-definition image receiving unit for receiving 4K high-definition video from a 4K camera in real time, and at least two 4K high-definition videos based on a first artificial intelligence model. A high-definition image segmentation unit that divides into FHD images, an image selector that selects one FHD image from among at least two FHD images based on the second artificial intelligence model, and inserts one FHD image into a video to be provided to a user terminal It includes a video production department.
제1 인공지능 모델은 얼굴 인식 알고리즘, 동작 인식 알고리즘 및 사물 인식 알고리즘 중 적어도 하나 이상의 알고리즘을 이용하여 4K 고화질 영상을 적어도 2개 이상의 FHD 영상으로 분할할 수 있다.The first artificial intelligence model may divide a 4K high-definition image into at least two FHD images using at least one of a face recognition algorithm, a motion recognition algorithm, and an object recognition algorithm.
제2 인공지능 모델은 4K 고화질 영상 속 발화자의 발화 내용 또는 발화자의 동작 중 적어도 하나에 기초하여 하나의 FHD 영상을 선택할 수 있다. The second artificial intelligence model may select one FHD image based on at least one of the speaker's speech content or the speaker's motion in the 4K high-definition video.
제2 인공지능 모델은 4K 고화질 영상 속 발화자의 발화 내용 또는 발화자의 동작 중 적어도 하나에 따라 적어도 2개 이상의 FHD 영상 중 다른 하나의 FHD 영상을 선택하며, 동영상 제작부는 동영상에 삽입되는 FHD 영상을 하나의 FHD 영상에서 다른 하나의 FHD 영상으로 변경할 수 있다. The second artificial intelligence model selects another FHD image from among at least two or more FHD images according to at least one of the speaker's speech content or the speaker's motion in the 4K high-definition video, and the video producer selects one FHD video inserted into the video. It is possible to change from one FHD image to another FHD image.
제2 인공지능 모델은 동영상에 삽입되는 FHD 영상에서 NG컷이 발생한 것으로 판단한 경우, 적어도 2개 이상의 FHD 영상 중 NG컷이 발생한 FHD 영상을 제외한 나머지 FHD 영상 중에서 하나의 FHD 영상을 선택할 수 있다. When the second artificial intelligence model determines that an NG cut has occurred in an FHD image inserted into a video, one FHD image can be selected from among the remaining FHD images excluding the FHD image in which the NG cut has occurred among at least two or more FHD images.
제2 인공지능 모델은 발화자가 음성 발성 또는 동작 수행 중 적어도 하나를 5초 이상 하지 않는 경우 NG컷으로 판단할 수 있다. The second artificial intelligence model may determine the NG cut when the speaker does not perform at least one of voice utterance or motion performance for 5 seconds or longer.
동영상 제작 장치는, 제작 동영상 출력/수정부를 더 포함하며, 사용자 단말기는 제작 동영상 출력/수정부에 대하여 제작이 완료된 동영상의 스트리밍 요청을 하고, 제작 동영상 출력/수정부는 사용자 단말기의 요청에 응답하여 사용자 단말기의 디스플레이부에 제작이 완료된 동영상을 스트리밍할 수 있다. The video production apparatus further includes a production video output/modification unit, and the user terminal requests streaming of the video production completed to the production video output/modification unit, and the production video output/modification unit responds to the user terminal's request. A video that has been produced can be streamed to the display unit of the terminal.
제작 동영상 출력/수정부는 사용자 단말기에 대하여 제작이 완료된 동영상 내 NG컷 발생 여부에 대하여 확인 요청할 수 있다. The production video output/editing unit may request a user terminal to confirm whether or not an NG cut has occurred in the video that has been produced.
사용자 단말기가 확인 요청에 대하여 제작이 완료된 동영상 내 NG컷이 발생한 것으로 응답한 경우, 제작 동영상 출력/수정부는 사용자 단말기에 대하여 NG컷 발생 시간 정보를 요청할 수 있다. When the user terminal responds to the confirmation request that an NG cut has occurred in a video that has been produced, the production video output/editing unit may request NG cut generation time information from the user terminal.
사용자 단말기는 제작 동영상 출력/수정부에 대하여 NG컷의 수정을 요청할 수 있으며, 제작 동영상 출력/수정부는 NG컷의 수정 요청에 응답하여 제작이 완료된 동영상에서 NG컷이 발생한 FHD 영상을 삭제하고 NG컷이 발생한 시간대의 FHD 영상 중 하나의 FHD 영상을 선택하여 NG컷이 발생한 시간대에 삽입할 수 있다. The user terminal can request the production video output/revision unit to modify the NG cut, and the production video output/revision unit responds to the NG cut modification request and deletes the FHD video in which the NG cut occurred from the video that has been produced and sends the NG cut One FHD video can be selected and inserted in the time zone where the NG cut occurred.
사용자 단말기가 확인 요청에 대하여 제작이 완료된 동영상 내 NG컷이 발생하지 않은 것으로 응답한 경우, 제작 동영상 출력/수정부는 사용자 단말기의 응답을 사용자 관리 장치의 결제 요청/확인부에 전달할 수 있다. When the user terminal responds to the confirmation request that no NG cut has occurred in the video that has been produced, the production video output/editing unit may transmit the user terminal's response to the payment request/confirmation unit of the user management device.
본 발명은 영상 제작에 대한 전문적인 지식/경험 없이도 전문가급의 영상을 제작할 수 있는 시스템을 제공할 수 있으며, 영상 촬영 및 편집을 자동화할 수 있다.The present invention can provide a system capable of producing professional-level videos without professional knowledge/experience in video production, and can automate video shooting and editing.
도 1은 본 발명의 일 실시예에 따른 동영상 제작 시스템의 개략도이다.1 is a schematic diagram of a video production system according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따른 사용자 관리 장치의 개략도이다.2 is a schematic diagram of a user management device according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따른 동영상 촬영 장치의 개략도이다.3 is a schematic diagram of a video recording device according to an embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따른 동영상 제작 장치의 개략도이다.4 is a schematic diagram of a video production device according to an embodiment of the present invention.
도 5는 동영상 촬영 장치 및 동영상 제작 장치를 포함하는 동영상 제작 부스의 외형에 대한 개념도이다.5 is a conceptual diagram of an external appearance of a video production booth including a video recording device and a video production device.
[부호의 설명][Description of code]
10: 동영상 자동 제작 시스템 100: 사용자 단말기10: automatic video production system 100: user terminal
200: 사용자 관리 장치 210: 고객 정보 확인부200: user management device 210: customer information verification unit
220: 고객 정보 DB 230: 예약 일정 제공/확인부220: Customer information DB 230: Reservation schedule provision/confirmation unit
240: 예약 일정 DB 250: 활성화부240: reservation schedule DB 250: activation unit
260: 결제 요청/확인부 300: 동영상 촬영 장치260: Payment request/confirmation unit 300: Video recording device
310: 콘덴서 마이크 320: 4K 카메라310: condenser microphone 320: 4K camera
330: 컴퓨팅 기기 340: 모니터330: computing device 340: monitor
350: 오퍼레이터PC 360: 크로마키용 조명350: operator PC 360: lighting for chroma key
370: 사용자용 조명 380: 제어부370: user lighting 380: control unit
400: 동영상 제작 장치 410: 고화질 영상 수신부400: video production device 410: high-definition video receiver
420: 고화질 영상 분할부 430: 영상 선택부420: high-definition image segmentation unit 430: image selection unit
440: 동영상 제작부 450: 제작 동영상 출력/수정부440: video production unit 450: production video output / correction unit
460: 제작 동영상 제공부 470: 제어부460: production video providing unit 470: control unit
이하, 본 발명에 대하여 상세히 설명한다. 다만, 본 발명이 예시적 실시 예들에 의해 제한되거나 한정되는 것은 아니다. 본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해 질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.Hereinafter, the present invention will be described in detail. However, the present invention is not limited or limited by exemplary embodiments. The objects and effects of the present invention can be naturally understood or more clearly understood by the following description, and the objects and effects of the present invention are not limited only by the following description. In addition, in describing the present invention, if it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted.
도 1은 본 발명의 일 실시예에 따른 동영상 자동 제작 시스템의 개략도이다. 도 1을 참조하면, 동영상 자동 제작 시스템(10)은 사용자 단말기(100), 사용자 관리 장치(200), 동영상 촬영 장치(300) 및 동영상 제작 장치(400)를 포함한다. 사용자 단말기(100), 사용자 관리 장치(200), 동영상 촬영 장치(300) 및 동영상 제작 장치(400)는 네트워크로 연결되어, 상호 간에 데이터 송수신이 가능하다.1 is a schematic diagram of an automatic video production system according to an embodiment of the present invention. Referring to FIG. 1 , the automatic video production system 10 includes a user terminal 100 , a user management device 200 , a video capture device 300 and a video production device 400 . The user terminal 100 , the user management device 200 , the video recording device 300 and the video production device 400 are connected through a network and can transmit/receive data to each other.
도 2는 본 발명의 일 실시예에 따른 사용자 관리 장치(200)의 개략도이다. 도 2를 참조하면, 사용자 관리 장치(200)는 고객 정보 확인부(210), 고객 정보 DB(220), 예약 일정 제공/확인부(230), 예약 일정 DB(240), 활성화부(250) 및 결제 요청/확인부(260)를 포함한다.2 is a schematic diagram of a user management device 200 according to an embodiment of the present invention. Referring to FIG. 2, the user management device 200 includes a customer information confirmation unit 210, a customer information DB 220, a reservation schedule providing/confirmation unit 230, a reservation schedule DB 240, and an activation unit 250. and a payment request/confirmation unit 260.
고객 정보 확인부(210)는 사용자 단말기(100)의 로그인 요청을 수신하면, 로그인 정보가 고객 정보 DB(220)에 기 저장되어 있는지와 함께 기 저장된 고객 정보와 일치하는지 여부를 확인한다. 로그인 정보가 고객 정보 DB(220)에 기 저장되어 있지 않거나 기 저장된 고객 정보와 일치하지 않는 것으로 확인한 경우 로그인 요청 거절 정보를 사용자 단말기(100)에 제공할 수 있다. 로그인 정보가 고객 정보 DB(220)에 기 저장된 고객 정보와 일치하는 것으로 확인한 경우, 사용자 단말기(100)의 로그인을 수락할 수 있다.Upon receiving a log-in request from the user terminal 100, the customer information checking unit 210 checks whether the log-in information is pre-stored in the customer information DB 220 and whether it matches pre-stored customer information. When it is determined that the login information is not pre-stored in the customer information DB 220 or does not match pre-stored customer information, login request rejection information may be provided to the user terminal 100 . When it is confirmed that the login information matches the customer information pre-stored in the customer information DB 220, the login of the user terminal 100 may be accepted.
예약 일정 제공/확인부(230)는 사용자 단말기(100)의 로그인과 동시에, 사용자 단말기(100)의 로그인 후 기 설정된 시간 이후에 또는 사용자 단말기(100)의 요청에 의해 예약 일정 DB(240)에 기 저장된 예약 일정 정보를 사용자 단말기(100)에 제공할 수 있다. 예약 일정 정보는 년/월/일/시간의 정보를 포함한다. 본 발명의 일 실시예에 따르면, 년/월/일 정보를 1차적으로 사용자 단말기(100)에 제공한 후 사용자 단말기(100)의 년/월/일 선택 정보를 예약 일정 제공/확인부(230)가 수신한 후 2차적으로 시간 정보를 사용자 단말기(100)에 제공하는 방식으로 예약 일정 정보를 사용자 단말기(100)에 제공할 수 있다. 이후, 사용자 단말기(100)가 시간 선택 정보를 예약 일정 제공/확인부(230)에 제공하는 것은 물론이다. 다만, 전술한 예약 일정 제공 방식이 이에 한정되는 것은 아니며, 공지의 예약 일정 제공 방식을 이용할 수도 있다. 한편, 예약 일정 정보에는 기 예약 일정과 미예약 일정을 구분하여 제공할 수 있고, 사용자 단말기(100)가 기 예약 일정을 선택할 수 없도록 기 예약 일정을 비활성화하는 것이 바람직하다.The reservation schedule providing/confirmation unit 230 stores the reservation schedule DB 240 at the same time as the user terminal 100 logs in, after a predetermined time after the user terminal 100 logs in, or at the request of the user terminal 100. Pre-stored reservation schedule information may be provided to the user terminal 100 . Reservation schedule information includes year/month/day/time information. According to an embodiment of the present invention, after the year/month/day information is primarily provided to the user terminal 100, the year/month/day selection information of the user terminal 100 is provided by the reservation schedule providing/confirming unit 230 Reservation schedule information may be provided to the user terminal 100 in a manner in which time information is secondarily provided to the user terminal 100 after being received by ). Thereafter, it goes without saying that the user terminal 100 provides the time selection information to the reservation schedule providing/confirming unit 230 . However, the aforementioned reservation schedule providing method is not limited thereto, and a known reservation schedule providing method may be used. On the other hand, the reservation schedule information may be provided separately from the reservation schedule and the non-reservation schedule, and it is preferable to disable the reservation schedule so that the user terminal 100 cannot select the reservation schedule.
활성화부(250)는 사용자 단말기(100)에 선택에 의해 예약된 일정에 맞추어 동영상 촬영 장치(300) 및 동영상 제작 장치(400)를 활성화할 수 있다. 활성화부(250)는 예약된 일정이 없거나 예약 일정이 종료된 경우 동영상 촬영 장치(300) 및 동영상 제작 장치(400)를 비활성화할 수 있다. 전술한 활성화/비활성화는 후술하는 동영상 촬영 장치(300)의 제어부(380)를 통해 수행될 수 있다. 본 발명의 일 실시예에 따르면, 활성화는 후술할 동영상 촬영 장치(300) 및 동영상 제작 장치(400)의 전원을 Off에서 On으로 전환하는 것을 의미할 수 있으며, 비활성화는 이와 반대로 각 장치의 전원을 Off에서 On으로 전환하는 것을 의미할 수 있다.The activation unit 250 may activate the video recording device 300 and the video production device 400 according to a schedule reserved by the user terminal 100 by selection. The activation unit 250 may deactivate the video recording device 300 and the video production device 400 when there is no reserved schedule or when the reserved schedule has expired. The activation/deactivation described above may be performed through the controller 380 of the video recording device 300 to be described later. According to an embodiment of the present invention, activation may mean switching the power of the video recording device 300 and the video production device 400, which will be described later, from Off to On, and inactivation, on the contrary, turns the power of each device on. It may mean switching from Off to On.
도 3은 본 발명의 일 실시예에 따른 동영상 촬영 장치(300)의 개략도이다. 도 3을 참조하면, 동영상 촬영 장치(300)는 배경 합성용 크로마키를 비롯하여 사용자의 음성을 녹음하기 위한 콘덴서 마이크(310), 사용자를 촬영하기 위한 4K 카메라(320), 크로마키를 통해 합성하고자 하는 콘텐츠의 디스플레이가 가능하고 사용자의 조작이 가능한 컴퓨팅 기기(330), 사용자 및 콘텐츠 중 적어도 하나를 디스플레이하기 위한 모니터(340), 동영상 제작 소프트웨어가 구동되는 오퍼레이터PC(350), 크로마키용 조명(360), 사용자용 조명(370) 및 제어부(380)를 포함할 수 있다.3 is a schematic diagram of a video recording device 300 according to an embodiment of the present invention. Referring to FIG. 3 , a video recording device 300 includes a chroma key for background synthesis, a condenser microphone 310 for recording a user's voice, a 4K camera 320 for photographing a user, and a chroma key for synthesizing video. A computing device 330 capable of displaying content to be displayed and capable of manipulation by a user, a monitor 340 for displaying at least one of the user and the content, an operator PC 350 running video production software, lighting for chroma key 360 ), a user light 370 and a control unit 380 may be included.
콘덴서 마이크(310), 4K 카메라(320), 컴퓨팅 기기(330), 모니터(340), 오퍼레이터PC(350), 크로마키용 조명(360) 및 사용자용 조명(370)은 IOT 기반의 기기이다. 공지된 IOT 기반이 기기를 이용할 수 있으며, 공지된 방법으로 IOT 환경을 구성할 수 있다. 제어부(380)는 각 기기(310, 320, 330, 340, 350, 360, 370)를 관리하며, 각 기기 간의 데이터 처리를 제어한다.The condenser microphone 310, 4K camera 320, computing device 330, monitor 340, operator PC 350, chroma key lighting 360 and user lighting 370 are IOT-based devices. A known IOT-based device can be used, and an IOT environment can be configured in a known method. The controller 380 manages each of the devices 310, 320, 330, 340, 350, 360, and 370 and controls data processing between the devices.
도 4는 본 발명의 일 실시예에 따른 동영상 제작 장치(400)의 개략도이다. 도 4를 참조하면, 동영상 제작 장치(400)는 고화질 영상 수신부(410), 고화질 영상 분할부(420), 영상 선택부(430), 동영상 제작부(440), 제작 동영상 출력/수정부(450), 제작 동영상 제공부(460) 및 제어부(470)를 포함한다. 제어부(470)는 각 부(410, 420, 430, 440, 450, 460)를 관리하며, 각 부 간의 데이터 처리를 제어할 수 있다.4 is a schematic diagram of a video production apparatus 400 according to an embodiment of the present invention. Referring to FIG. 4 , the video production device 400 includes a high-quality video receiving unit 410, a high-quality video segmentation unit 420, an image selection unit 430, a video production unit 440, and a production video output/modification unit 450. , A production video providing unit 460 and a control unit 470 are included. The control unit 470 manages each unit 410, 420, 430, 440, 450, and 460, and may control data processing between each unit.
고화질 영상 수신부(410)는 동영상 촬영 장치(300)의 4K 카메라(320)로부터 4K 고화질 영상을 실시간으로 수신할 수 있다. 본 발명의 일 실시예에 따르면, 1대의 4K 카메라(320)로부터 하나의 4K 고화질 영상을 실시간으로 수신할 수 있다. 본 발명의 다른 실시예에 따르면, 2대 이상의 4K 카메라(320)로부터 2개 이상의 4K 고화질 영상을 실시간으로 수신할 수도 있다.The high-definition video receiver 410 may receive 4K high-definition video from the 4K camera 320 of the video recording device 300 in real time. According to an embodiment of the present invention, one 4K high-definition video can be received in real time from one 4K camera 320 . According to another embodiment of the present invention, two or more 4K high-definition images may be received in real time from two or more 4K cameras 320 .
고화질 영상 분할부(420)는 제1 인공지능 모델에 기반하여 4K 고화질 영상을 적어도 2개 이상의 FHD 영상으로 분할할 수 있다. 현재 방송에서 주로 사용하는 화면 사이즈의 규격은 FHD(Full-HD)이다. 4K 고화질 영상은 FHD 영상의 4배에 해당하는 화면 사이즈를 가지기 때문에, 고화질 영상 분할부(420)는 4K 고화질 영상을 적어도 2개 이상의 FHD 영상으로 분할할 수 있다. 다만, 4K 고화질 영상 및 FHD 영상의 화면 사이즈를 산술적으로 대비하였을 때 하나의 4K 고화질 영상을 4개의 FHD 영상으로 분할할 수 있다는 것이지, 고화질 영상 분할부(420)가 4K 고화질 영상을 반드시 4개의 FHD 영상으로 분할해야 한다는 의미는 아니다.The high-definition image segmentation unit 420 may divide the 4K high-definition image into at least two FHD images based on the first artificial intelligence model. Currently, the screen size standard mainly used in broadcasting is FHD (Full-HD). Since the 4K high-definition video has a screen size four times that of the FHD video, the high-definition video dividing unit 420 may divide the 4K high-definition video into at least two or more FHD images. However, when the screen sizes of the 4K high-definition video and the FHD video are arithmetically prepared, one 4K high-definition video can be divided into four FHD videos, and the high-definition video division unit 420 must divide the 4K high-definition video into four FHD videos. It doesn't mean that you have to split it into images.
본 발명의 일 실시예에 따르면, 고화질 영상 분할부(420)의 제1 인공지능 모델은 얼굴 인식 알고리즘, 동작 인식 알고리즘 및 사물 인식 알고리즘 중 적어도 하나 이상의 알고리즘을 이용하여 4K 고화질 영상을 적어도 2개 이상의 FHD 영상으로 분할할 수 있다. 얼굴 인식 알고리즘, 동작 인식 알고리즘 및 사물 인식 알고리즘은 공지된 인식 알고리즘일 수 있다.According to an embodiment of the present invention, the first artificial intelligence model of the high-definition image segmentation unit 420 converts at least two or more 4K high-definition images by using at least one or more of a face recognition algorithm, a motion recognition algorithm, and an object recognition algorithm. It can be segmented into FHD video. The face recognition algorithm, motion recognition algorithm, and object recognition algorithm may be known recognition algorithms.
영상 선택부(430)는 제2 인공지능 모델에 기반하여 적어도 2개 이상의 FHD 영상 중 하나의 FHD 영상을 선택할 수 있으며, 동영상 제작부(440)는 선택된 하나의 FHD 영상을 사용자 단말기에 제공할 동영상에 삽입할 수 있다.The image selection unit 430 may select one FHD image from among at least two or more FHD images based on the second artificial intelligence model, and the video production unit 440 may select the selected one FHD image as a video to be provided to the user terminal. can be inserted.
예컨대, 제1 인공지능 모델이 하나의 4K 고화질 영상을 3개의 FHD 영상으로 분할하여 제1 FHD 영상, 제2 FHD 영상 및 제3 FHD 영상이 생성되었다면, 4K 고화질 영상이 수신되는 시간 동안에는 계속해서 제1 내지 제3 FHD 영상이 존재하게 되는데, 제2 인공지능 모델은 제1 내지 제3 FHD 영상 중 동영상 제작 목적에 가장 적합한 하나의 FHD 영상을 선택하는 것이다.For example, if the first artificial intelligence model divides one 4K high-definition image into three FHD images and the first FHD image, the second FHD image, and the third FHD image are generated, while the 4K high-definition image is received, First to third FHD images exist, and the second artificial intelligence model selects one FHD image most suitable for the purpose of producing a video from among the first to third FHD images.
제2 인공지능 모델은 4K 고화질 영상 속 발화자의 발화 내용 또는 발화자의 동작 중 적어도 하나에 기초하여 적어도 2개 이상의 FHD 영상 중 하나의 FHD 영상을 선택할 수 있다. The second artificial intelligence model may select one FHD image from among at least two or more FHD images based on at least one of the speaker's speech content or the speaker's motion in the 4K high-definition image.
예컨대, 4K 고화질 영상이 귀걸이 소개 영상이고, 4K 고화질 영상 속 발화자의 첫 발화 내용이 인사말이고, 제1 및 제2 FHD 영상이 각각 발화자 전체 풀(full) 영상 및 발화자 클로즈 영상이고, 제3 FHD 영상이 발화자가 위치한 공간에 구비해둔 화분의 영상이라면, 제2 인공지능 모델은 제1 내지 제3 FHD 영상 중 제1 FHD 영상을 선택한다. 발화자 풀 영상은, 발화자 및 발화자 주변의 배경을 담은 영상을 말하며, 발화자 클로즈 영상은 발화자 중심의 영상을 말한다. 제2 인공지능 모델의 제1 FHD 영상 선택 후, 동영상 제작부(440)는 제1 FHD 영상을 동영상에 삽입한다.For example, the 4K high-definition video is an introduction video for earrings, the first utterance of a speaker in the 4K high-definition video is a greeting, the first and second FHD videos are a full speaker video and a close-up video of the speaker, respectively, and the third FHD video If it is an image of a potted plant prepared in the space where the speaker is located, the second artificial intelligence model selects the first FHD image from among the first to third FHD images. The full speaker image refers to an image including the speaker and the background around the speaker, and the speaker close image refers to an image centered on the speaker. After selecting the first FHD image of the second artificial intelligence model, the video production unit 440 inserts the first FHD image into the video.
제2 인공지능 모델은 4K 고화질 영상 속 발화자의 발화 내용 또는 발화자의 동작 중 적어도 하나에 따라 적어도 2개 이상의 FHD 영상 중 다른 하나의 FHD 영상을 선택할 수 있으며, 동영상 제작부는 동영상에 삽입되는 FHD 영상을 하나의 FHD 영상에서 다른 하나의 FHD 영상으로 변경할 수 있다.The second artificial intelligence model can select another FHD video from among at least two or more FHD videos according to at least one of the speaker's utterance content or the speaker's motion in the 4K high-definition video, and the video production unit selects the FHD video inserted into the video. You can change from one FHD video to another FHD video.
예컨대, 4K 고화질 영상 속 발화자가 1분 동안 인사말을 하였고 인사말이 끝난 후 발화자 자신의 귀에 착용한 귀걸이에 대하여 언급만을 하거나 자신의 귀를 만지면서 귀걸이에 대하여 언급한다면, 제2 인공지능 모델은 제1 FHD 영상의 선택을 1분 동안 유지한 후 제2 FHD 영상을 선택하며, 동영상 제작부(440)는 제1 FHD 영상을 1분 동안 동영상에 삽입한 후 동영상에 삽입하는 FHD 영상을 제2 FHD 영상으로 변경한다.For example, if a speaker in a 4K high-definition video greets for 1 minute, and after the greeting is over, the speaker only mentions the earring worn in his/her own ear or touches his or her ear while mentioning the earring, the second artificial intelligence model After maintaining the selection of the FHD image for 1 minute, the second FHD image is selected, and the video production unit 440 inserts the first FHD image into the video for 1 minute, and then converts the FHD video to be inserted into the video into the second FHD video. change
제2 인공지능 모델은 동영상에 삽입되는 FHD 영상에서 NG컷이 발생한 것으로 판단한 경우, 적어도 2개 이상의 FHD 영상 중 NG컷이 발생한 FHD 영상을 제외한 나머지 FHD 영상 중에서 하나의 FHD 영상을 선택할 수 있다. 본 발명의 일 실시예에 따르면, 제2 인공지능 모델은 발화자가 음성 발성 또는 동작 수행 중 적어도 하나를 5초 이상 하지 않는 경우 NG컷으로 판단할 수 있다.When the second artificial intelligence model determines that an NG cut has occurred in an FHD image inserted into a video, one FHD image can be selected from among the remaining FHD images excluding the FHD image in which the NG cut has occurred among at least two or more FHD images. According to an embodiment of the present invention, the second artificial intelligence model may determine the NG cut when the speaker does not perform at least one of voice utterance or motion performance for 5 seconds or more.
예컨대, 발화자가 귀걸이 제조사명을 언급해야 하는 순간에 제조사명이 생각나지 않아 어떠한 말도 하지 못한 채 5초의 시간이 경과하였다면, 제2 인공지능 모델은 제2 FHD 영상에서 NG컷이 발생하였다고 판단하고, 제1 FHD 영상 및 제3 FHD 영상 중 제3 FHD 영상을 선택할 수 있다. 동영상 제작부(440)는 제2 FHD 영상을 동영상에 삽입하던 중 동영상에 삽입하는 FHD 영상을 제3 FHD 영상으로 변경한다.For example, if 5 seconds elapsed without saying anything because the speaker could not remember the manufacturer name at the moment when he had to mention the name of the manufacturer of the earrings, the second artificial intelligence model judged that an NG cut had occurred in the second FHD image, and A third FHD image may be selected from among the first FHD image and the third FHD image. While inserting the second FHD video into the video, the video production unit 440 changes the FHD video to be inserted into the video into a third FHD video.
제2 인공지능 모델은 4K 고화질 영상 속 발화자의 발화 내용 또는 발화자의 동작 중 적어도 하나에 기초하여 적어도 2개 이상의 FHD 영상 중 하나의 FHD 영상을 선택하도록 미리 학습된 인공지능 모델일 수 있다. 제2 인공지능 모델은 강의 영상, 다큐멘터리 영상, 유튜브 영상 등 다양한 종류의 영상을 학습 영상으로 하여, 학습 영상 속 발화자의 발화 내용으로부터 중심 화제(Topic)를 특정하는 것과 학습 영상 속 발화자의 발화 내용과 출력되고 있는 영상의 종류(전체 풀 영상, 클로즈 영상, 배경 영상, 사물 영상 등)를 매칭하는 것을 학습할 수 있다.The second artificial intelligence model may be an artificial intelligence model pre-learned to select one FHD image from among at least two FHD images based on at least one of a speaker's speech content or a speaker's motion in a 4K high-definition image. The second artificial intelligence model uses various types of videos such as lecture videos, documentary videos, and YouTube videos as learning videos, and identifies a central topic from the contents of the speaker's speech in the learning video, It is possible to learn to match the type of image being output (full full image, close image, background image, object image, etc.).
제2 인공지능 모델은 동영상에 삽입되는 FHD 영상에서 NG컷이 발생한 것으로 판단한 경우, 적어도 2개 이상의 FHD 영상 중 NG컷이 발생한 FHD 영상을 제외한 나머지 FHD 영상 중에서 하나의 FHD 영상을 선택하도록 미리 학습된 인공지능 모델일 수 있다. 제2 인공지능 모델은 강의 영상, 다큐멘터리 영상, 드라마, 영화, 유튜브 영상 등의 영상 제작 비하인드 영상을 학습 영상으로 하여 발화자(예: 감독)의 'NG'또는 '컷' 음성을 인식하는 것과 'NG' 또는 '컷' 음성이 발생하기 전의 상황을 NG컷으로 인식하는 것을 학습할 수 있다.When the second artificial intelligence model determines that an NG cut has occurred in an FHD image inserted into a video, it is pretrained to select one FHD image from among the remaining FHD images excluding the FHD image in which the NG cut has occurred among at least two or more FHD images. It can be an artificial intelligence model. The second artificial intelligence model recognizes the 'NG' or 'cut' voice of the speaker (e.g., director) by using behind-the-scenes videos of video production such as lecture videos, documentary videos, dramas, movies, and YouTube videos as learning videos. ' or 'cut' can be learned to recognize the situation before the voice occurs as an NG cut.
제작 동영상 출력/수정부(450)는 동영상 제작부(440)로부터 동영상 제작 완료 신호를 수신하면, 제작 동영상 출력/수정부(450)는 사용자 단말기(100)에 동영상 제작 완료 정보를 전달하며 사용자 단말기(100)는 제작 동영상 출력/수정부(450)에 대하여 제작이 완료된 동영상의 스트리밍을 요청할 수 있고, 제작 동영상 출력/수정부(450)는 사용자 단말기(100)의 요청에 응답하여 사용자 단말기(100)의 디스플레이부에 제작이 완료된 동영상을 스트리밍할 수 있다. When the production video output/modification unit 450 receives a video production completion signal from the video production unit 440, the production video output/modification unit 450 transmits the video production completion information to the user terminal 100 and the user terminal ( 100) may request the production video output/modification unit 450 to stream a video that has been produced, and the production video output/modification unit 450 responds to the request of the user terminal 100 to the user terminal 100. The production completed video can be streamed to the display unit of the .
제작 동영상 출력/수정부(450)는 사용자 단말기(100)에 대하여 제작이 완료된 동영상 내 NG컷 발생 여부에 대하여 확인을 요청할 수 있으며, 사용자 단말기(100)가 제작 동영상 출력/수정부(450)의 확인 요청에 대하여 제작이 완료된 동영상 내 NG컷이 발생한 것으로 응답한 경우, 제작 동영상 출력/수정부(450)는 사용자 단말기(100)에 대하여 NG컷 발생 시간 정보를 요청할 수 있고, 사용자 단말기(100)는 NG컷 발생 시간 정보를 제작 동영상 출력/수정부(450)에 제공할 수 있다.The production video output/modification unit 450 may request the user terminal 100 to confirm whether or not an NG cut has occurred in the video that has been produced, and the user terminal 100 When responding to the confirmation request that an NG cut has occurred in a video that has been produced, the production video output/modifying unit 450 may request NG cut generation time information from the user terminal 100, and the user terminal 100 may provide NG cut generation time information to the production video output/modification unit 450.
사용자 단말기(100)는 제작 동영상 출력/수정부(450)에 대하여 NG컷 발생 시간 정보의 제공과 함께 또는 별도로 NG컷의 수정을 요청할 수 있고, 제작 동영상 출력/수정부(450)는 NG컷의 수정 요청에 응답하여 제작이 완료된 동영상에서 NG컷이 발생한 FHD 영상을 삭제하고 NG컷이 발생한 시간대의 FHD 영상 중 하나의 FHD 영상을 선택하여 NG컷이 발생한 시간대에 삽입할 수 있다.The user terminal 100 may request the production video output/modification unit 450 to modify the NG cut together with or separately from the provision of NG cut generation time information, and the production video output/modification unit 450 In response to the modification request, the FHD video in which the NG cut has occurred is deleted from the video that has been produced, and one FHD video can be selected and inserted in the time zone where the NG cut has occurred.
제작 동영상 출력/수정부(450)는 수정된 제작 영상을 사용자 단말기(100)에 제공하면서 NG컷 발생 여부에 대한 선택을 재요청할 수 있으며, 사용자 단말기(100)가 NG컷이 발생한 것으로 재응답한 경우라면, NG컷의 삭제 및 FHD 영상의 삽입을 반복한다.The production video output/modification unit 450 may re-request the selection of whether or not an NG cut occurs while providing the modified production video to the user terminal 100, and the user terminal 100 responds again that an NG cut has occurred If so, the deletion of NG cuts and the insertion of FHD videos are repeated.
사용자 단말기(100)가 제작 동영상 출력/수정부(450)의 확인 요청에 대하여 제작이 완료된 동영상 내 NG컷이 발생하지 않은 것으로 응답한 경우, 제작 동영상 출력/수정부(450)는 사용자 단말기(100)의 응답 정보를 사용자 관리 장치(200)의 결제 요청/확인부(260)에 전달할 수 있고, 결제 요청/확인부(260)는 사용자 단말기(100)에 결제를 요청할 수 있다.When the user terminal 100 responds to the confirmation request of the production video output/modification unit 450 that no NG cut has occurred in the production completed video, the production video output/modification unit 450 responds to the user terminal 100 ) may be transmitted to the payment request/confirmation unit 260 of the user management device 200, and the payment request/confirmation unit 260 may request payment from the user terminal 100.
결제 요청/확인부(260)에서 사용자 단말기(100)의 결제 완료 신호를 수신한 경우, 결제 완료 신호를 동영상 제작 장치(400)의 제작 동영상 제공부(460)에 제공할 수 있고, 제작 동영상 제공부(460)는 제작이 완료된 동영상을 사용자 단말기(100)로 제공할 수 있다. 이하에서, 동영상 제작에 대한 실시예를 통해 보다 상세히 설명하기로 한다. When the payment request/confirmation unit 260 receives a payment completion signal from the user terminal 100, the payment completion signal may be provided to the production video providing unit 460 of the video production device 400, and the production video The study 460 may provide the created video to the user terminal 100 . Hereinafter, it will be described in more detail through an embodiment of video production.
실시예 1: 강의Example 1: Lecture
사용자는 강의 시, 랩탑(330)(데스크탑, 랩탑, 태블릿PC 등 중 어느 하나일 수 있다)을 통해 디스플레이되는 강의 콘텐츠를 밑줄을 그으며 강의 콘텐츠를 읽거나, 강의 콘텐츠에 부연 설명을 기재하는 등의 방식으로 강의를 진행할 수 있으며, 강의 콘텐츠에 대한 사용자의 동작없이 구두만으로 설명할 수도 있음을 가정한다.During the lecture, the user underlines the lecture content displayed through the laptop 330 (which may be any one of a desktop, a laptop, a tablet PC, etc.) and reads the lecture content, or writes additional explanations in the lecture content. It is assumed that the lecture can be conducted in this manner, and that lecture content can be explained only verbally without a user's action.
고화질 영상 수신부(420)는 4K 웹캠(320)으로부터 사용자 및 강의 콘텐츠가 모두 포함된 4K 고화질의 강의 영상을 수신한다. 여기서, 강의 콘텐츠는 전술한 배경 합성용 크로마키에 합성된 것이다.The high-definition video receiver 420 receives a 4K high-definition lecture video including both users and lecture contents from the 4K webcam 320 . Here, the contents of the lecture are synthesized with the aforementioned chroma key for background synthesis.
고화질 영상 분할부(420)는 강의 영상을 3개의 FHD 영상 즉, 사용자 클로즈 영상, 강의 콘텐츠 영상, 사용자 및 강의 콘텐츠 풀(full) 영상(이하, 설명의 편의상 '풀 영상'이라 한다)으로 분할할 수 있다. The high-definition video segmentation unit 420 divides the lecture video into three FHD images, that is, a user close video, a lecture content video, and a full user and lecture content video (hereinafter referred to as 'full video' for convenience of explanation). can
사용자 클로즈 영상은 사용자 얼굴 중심의 영상이거나 사용자 얼굴 및 신체의 적어도 일부가 모두 나타나 있는 영상을 의미한다. 사용자의 상, 하반신 모두 나타나야 하는 것은 아니며, 상반신만이 나타날 수도 있다. 강의 콘텐츠 영상은 랩탑(330)의 디스플레이부에 출력되는 영상을 의미한다. 풀 영상은 사용자 및 강의 콘텐츠가 하나의 화면에 모두 나타나는 영상을 말한다.The user close image means an image centered on the user's face or an image in which both the user's face and at least a part of the body are displayed. Both the upper and lower body of the user do not have to appear, and only the upper body may appear. The lecture content image refers to an image output to the display unit of the laptop 330 . A full video refers to a video in which both the user and lecture contents appear on a single screen.
영상 선택부(430)의 인공지능 모델은 강의 영상의 특성에 기반하여 풀 영상을 동영상의 시작 영상으로 선택할 수 있으며 풀 영상은 동영상 제작부(440)에 전달되어 동영상의 시작 영상으로 삽입될 수 있다.The artificial intelligence model of the image selector 430 may select a full image as the starting image of a video based on the characteristics of the lecture video, and the full image may be transmitted to the video production unit 440 and inserted into the starting image of the video.
사용자가 강의 콘텐츠를 밑줄을 그으며 강의 콘텐츠를 읽거나, 강의 콘텐츠에 부연 설명을 기재하는 등의 방식의 동작을 취하는 경우, 영상 선택부(430)는 강의 콘텐츠 영상을 선택할 수 있고 강의 콘텐츠 영상은 동영상 제작부(440)에 전달되어 풀 영상이 강의 콘텐츠 영상으로 전환될 수 있다.When the user reads the lecture content while underlining the lecture content, or performs an action such as writing an amplified explanation on the lecture content, the video selection unit 430 may select the lecture content video, and the lecture content video is a video. It is delivered to the production unit 440 and the full video can be converted into a lecture content video.
사용자가 강의 도중 4K 카메라(320)을 응시하는 경우 영상 선택부(430)는 사용자 클로즈 영상을 선택할 수 있고 사용자 클로즈 영상은 동영상 제작부(440)에 전달되어 강의 콘텐츠 영상이 사용자 클로즈 영상으로 전환될 수 있다.When a user gazes at the 4K camera 320 during a lecture, the image selector 430 may select a user close-up image, and the user-closed image may be transmitted to the video production unit 440 to convert the lecture content image into a user close-up image. there is.
한편, 사용자 클로즈 영상이 동영상 제작부(440)에 전달되어 동영상에 삽입되는 도중에 사용자가 5초 이상 어떠한 설명도 하지 않고, 어떠한 동작도 취하지 않는 경우, 영상 선택부(430)는 다시 강의 콘텐츠 영상을 선택할 수 있고 강의 콘텐츠 영상은 동영상 제작부(440)에 전달되어 사용자 클로즈 영상이 강의 콘텐츠 영상으로 전환될 수 있다.On the other hand, if the user does not explain or take any action for more than 5 seconds while the user's closed video is transmitted to the video production unit 440 and inserted into the video, the video selection unit 430 selects the lecture content video again. The lecture content video may be transmitted to the video production unit 440 and the user close video may be converted into a lecture content video.
실시예 2: 가방 소개 영상Example 2: Bag introduction video
사용자가 가방을 손에 든 채, 가방 사용 후기와 함께 가방을 소개하는 영상을 제작하는 경우를 예로 든다.An example is the case where a user creates a video introducing a bag with a user review while holding the bag in his hand.
고화질 영상 수신부(420)는 4K 웹캠(320)으로부터 사용자 및 가방이 모두 포함된 풀 영상을 4K 고화질의 소개 영상을 수신한다.The high-definition video receiving unit 420 receives a 4K high-definition introduction video including a full video including the user and the bag from the 4K webcam 320 .
고화질 영상 분할부(420)는 소개 영상을 3개의 FHD 영상 즉, 사용자 클로즈 영상, 가방 클로즈 영상, 사용자 및 가방의 풀 영상으로 분할할 수 있다.The high-definition image segmentation unit 420 may divide the introduction video into three FHD images, that is, a user close image, a bag close image, and a full image of the user and bag.
사용자 클로즈 영상은 사용자 얼굴 중심의 영상이거나 사용자 얼굴 및 신체의 일부가 나타나 있는 영상을 의미한다. 전술한 바와 같이, 사용자의 상, 하반신 모두 나타나야 하는 것은 아니다. 가방 클로즈 영상은 가방 중심의 영상을 의미하며, 풀 영상은 사용자 및 가방이 하나의 화면에 모두 나타나 있는 영상을 말한다.The user close image means an image centered on the user's face or an image in which the user's face and body parts are displayed. As described above, both the upper and lower body of the user do not have to appear. The bag closing video refers to an image centered on the bag, and the full video refers to an image in which the user and the bag are both displayed on one screen.
영상 선택부(430)의 인공지능 모델은 상품 소개 영상의 특성에 기반하여 풀 영상을 동영상의 시작 영상으로 선택할 수 있으며 풀 영상은 동영상 제작부(440)에 전달되어 동영상의 시작 영상으로 삽입될 수 있다.The artificial intelligence model of the image selection unit 430 may select a full image as a starting image of a video based on the characteristics of a product introduction video, and the full image may be transmitted to the video production unit 440 and inserted into the starting video of the video. .
사용자가 가방을 여는 동작을 취할 경우, 영상 선택부(430)는 가방 클로즈 영상을 선택할 수 있고 가방 클로즈 영상은 동영상 제작부(440)에 전달되어 풀 영상이 가방 클로즈 영상으로 전환될 수 있다.When the user takes an action of opening the bag, the image selection unit 430 may select a bag closing image, and the bag closing image may be transmitted to the video production unit 440 to convert the full image into a bag closing image.
사용자가 가방을 사용자 본인의 어깨에 매는 동작을 취할 경우, 영상 선택부(430)는 사용자 클로즈 영상을 선택할 수 있고, 사용자 클로즈 영상은 동영상 제작부(440)에 전달되어 가방 클로즈 영상이 사용자 클로즈 영상으로 전환될 수 있다.When the user performs an action of putting the bag on the user's shoulder, the image selector 430 may select a user close-up image, and the user close-up image is transmitted to the video production unit 440, and the bag close image is converted into a user close-up image. can be converted
한편, 사용자 클로즈 영상이 동영상 제작부(440)에 전달되어 동영상에 삽입되는 도중에 앉아 있던 사용자가 일어선 경우, 영상 선택부(430)는 풀 영상을 선택할 수 있고, 풀 영상은 동영상 제작부(440)에 전달되어 사용자 클로즈 영상이 풀 영상으로 전환될 수 있다.On the other hand, if the user's closed video is transmitted to the video production unit 440 and inserted into the video, and the user who was sitting stands up, the video selection unit 430 may select a full video, and the full video is sent to the video production unit 440. It is delivered so that the user close video can be converted to a full video.
도 5는 동영상 촬영 장치 및 동영상 제작 장치를 포함하는 동영상 제작 부스의 외형에 대한 개념도이다. 도 5를 참조하면, 동영상 제작 부스는 차량으로 이송이 가능하며 일정한 내부 공간을 가질 수 있다. 동영상 제작 부스는 박스 형태의 컨테이너이거나 또는 컨테이너 형태의 하우스를 의미할 수 있다. 동영상 제작 부스는 제작, 이송 및 설치가 편리한 형태이면 충분하며, 전술한 바와 같이, 박스 형태, 컨테이너 형태에 한정할 것은 아니다. 한편, 동영상 제작 부스는 사용자의 출입을 위한 출입문을 포함하며, 부스 제작 방법에서 사용하는 공지의 기술을 동영상 제작 부스에 적용할 수 있다.5 is a conceptual diagram of an external appearance of a video production booth including a video recording device and a video production device. Referring to FIG. 5, the video production booth can be transported by vehicle and has a certain internal space. The video production booth may mean a container in the form of a box or a house in the form of a container. The video production booth suffices if it is in a form convenient for production, transport, and installation, and as described above, it is not limited to a box form or a container form. On the other hand, the video production booth includes a door for the user's access, and a known technology used in the booth production method can be applied to the video production booth.
본 발명에 따르면, 크로마키 강의 즉, 강의 내용 합성이 필요한 모든 형식의 강의, 뉴스 형식의 촬영 등이 가능하다. 초록색 크로마키 배경에서 촬영하고 배경 또는 강의 내용을 합성하기에 아나운서, VJ 등과 같이 강의를 할 수 있다. 프롬프터를 이용하여 자연스럽고 생동감 있는 영상을 제작할 수도 있다.According to the present invention, it is possible to take chroma-key lectures, that is, all types of lectures that require synthesis of lecture contents, and news-type shooting. Since it is filmed in a green chromakey background and the background or lecture contents are synthesized, it is possible to give a lecture like an announcer or VJ. You can also create natural and lively images by using the prompter.
본 발명에 따르면, 카메라 강의 예컨대, 온라인 강의, 라이브 강의 또는 화상 회의 등을 데스크탑, 랩탑, 태블릿PC 등을 통해 진행할 수 있으므로 시간 및 공간적 제약 없이 영상을 촬영하고 제작할 수도 있다. According to the present invention, since camera lectures, for example, online lectures, live lectures, or video conferences can be conducted through desktops, laptops, tablet PCs, etc., images can be filmed and produced without time and space limitations.
이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 청구범위뿐만 아니라 청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.Although the present invention has been described in detail through representative embodiments, those skilled in the art will understand that various modifications are possible to the above-described embodiments without departing from the scope of the present invention. will be. Therefore, the scope of the present invention should not be limited to the described embodiments and should not be defined, and should be defined by all changes or modifications derived from the claims and equivalent concepts as well as the claims to be described later.

Claims (10)

  1. 동영상 제작 장치를 포함하며,Including a video production device,
    상기 동영상 제작 장치는,The video production device,
    4K 카메라로부터 4K 고화질 영상을 실시간으로 수신하는 고화질 영상 수신부;a high-definition video receiver for receiving 4K high-definition video from a 4K camera in real time;
    제1 인공지능 모델에 기반하여 상기 4K 고화질 영상을 적어도 2개 이상의 FHD 영상으로 분할하는 고화질 영상 분할부;a high-definition image division unit dividing the 4K high-definition image into at least two FHD images based on a first artificial intelligence model;
    제2 인공지능 모델에 기반하여 상기 적어도 2개 이상의 FHD 영상 중 하나의 FHD 영상을 선택하는 영상 선택부;an image selector selecting one FHD image from among the at least two FHD images based on a second artificial intelligence model;
    상기 하나의 FHD 영상을 사용자 단말기에 제공할 동영상에 삽입하는 동영상 제작부를 포함하며,A video production unit for inserting the one FHD video into a video to be provided to a user terminal;
    상기 제2 인공지능 모델은 상기 4K 고화질 영상 속 발화자의 발화 내용 또는 상기 발화자의 동작 중 적어도 하나에 따라 상기 적어도 2개 이상의 FHD 영상 중 다른 하나의 FHD 영상을 선택하며,The second artificial intelligence model selects another FHD image among the at least two or more FHD images according to at least one of the content of a speaker's speech in the 4K high-definition video or the speaker's motion,
    상기 동영상 제작부는 상기 동영상에 삽입되는 FHD 영상을 상기 하나의 FHD 영상에서 상기 다른 하나의 FHD 영상으로 변경하는, 동영상 자동 제작 시스템.The video production unit changes the FHD video inserted into the video from the one FHD video to the other FHD video.
  2. 제1항에 있어서,According to claim 1,
    상기 제1 인공지능 모델은 얼굴 인식 알고리즘, 동작 인식 알고리즘 및 사물 인식 알고리즘 중 적어도 하나 이상의 알고리즘을 이용하여 상기 4K 고화질 영상을 적어도 2개 이상의 FHD 영상으로 분할하는, 동영상 자동 제작 시스템.The first artificial intelligence model divides the 4K high-definition image into at least two or more FHD images using at least one algorithm of a face recognition algorithm, a motion recognition algorithm, and an object recognition algorithm.
  3. 제1항에 있어서,According to claim 1,
    상기 제2 인공지능 모델은 상기 4K 고화질 영상 속 발화자의 발화 내용 또는 상기 발화자의 동작 중 적어도 하나에 기초하여 상기 하나의 FHD 영상을 선택하는, 동영상 자동 제작 시스템.The second artificial intelligence model selects the one FHD video based on at least one of the speech content of the speaker in the 4K high-definition video or the speaker's motion.
  4. 제1항에 있어서,According to claim 1,
    상기 제2 인공지능 모델은 상기 동영상에 삽입되는 FHD 영상에서 NG컷이 발생한 것으로 판단한 경우, 상기 적어도 2개 이상의 FHD 영상 중 상기 NG컷이 발생한 FHD 영상을 제외한 나머지 FHD 영상 중에서 하나의 FHD 영상을 선택하는, 동영상 자동 제작 시스템.When the second artificial intelligence model determines that an NG cut has occurred in the FHD image inserted into the video, selects one FHD image from among the remaining FHD images excluding the FHD image in which the NG cut has occurred among the at least two or more FHD images , video automatic production system.
  5. 제4항에 있어서,According to claim 4,
    상기 제2 인공지능 모델은 상기 발화자가 음성 발성 또는 동작 수행 중 적어도 하나를 5초 이상 하지 않는 경우 NG컷으로 판단하는, 동영상 자동 제작 시스템.The second artificial intelligence model determines that the NG cut is determined when the speaker does not perform at least one of voice utterance or motion performance for 5 seconds or more.
  6. 제1항에 있어서,According to claim 1,
    상기 동영상 제작 장치는, 제작 동영상 출력/수정부를 더 포함하며,The video production device further includes a production video output/modification unit,
    상기 사용자 단말기는 상기 제작 동영상 출력/수정부에 대하여 제작이 완료된 동영상의 스트리밍 요청을 하고,The user terminal requests streaming of the produced video to the production video output / modification unit,
    상기 제작 동영상 출력/수정부는 상기 사용자 단말기의 요청에 응답하여 상기 사용자 단말기의 디스플레이부에 상기 제작이 완료된 동영상을 스트리밍하는, 동영상 자동 제작 시스템.The production video output/editing unit streams the produced video to a display unit of the user terminal in response to a request of the user terminal.
  7. 제6항에 있어서,According to claim 6,
    상기 제작 동영상 출력/수정부는 상기 사용자 단말기에 대하여 상기 제작이 완료된 동영상 내 NG컷 발생 여부에 대하여 확인 요청하는, 동영상 자동 제작 시스템.The production video output/modification unit requests the user terminal to confirm whether or not an NG cut has occurred in the video that has been produced.
  8. 제7항에 있어서,According to claim 7,
    상기 사용자 단말기가 상기 확인 요청에 대하여 상기 제작이 완료된 동영상 내 NG컷이 발생한 것으로 응답한 경우, 상기 제작 동영상 출력/수정부는 상기 사용자 단말기에 대하여 NG컷 발생 시간 정보를 요청하는, 동영상 자동 제작 시스템.When the user terminal responds to the confirmation request that an NG cut has occurred in the video that has been produced, the production video output/editing unit requests NG cut generation time information for the user terminal.
  9. 제8항에 있어서,According to claim 8,
    상기 사용자 단말기는 상기 제작 동영상 출력/수정부에 대하여 NG컷의 수정을 요청할 수 있으며, 상기 제작 동영상 출력/수정부는 상기 NG컷의 수정 요청에 응답하여 상기 제작이 완료된 동영상에서 상기 NG컷이 발생한 FHD 영상을 삭제하고 상기 NG컷이 발생한 시간대의 FHD 영상 중 하나의 FHD 영상을 선택하여 상기 NG컷이 발생한 시간대에 삽입하는, 동영상 자동 제작 시스템.The user terminal may request modification of the NG cut to the production video output/modification unit, and the production video output/modification unit responds to the request for modification of the NG cut to the FHD where the NG cut occurred in the production completed video. An automatic video production system for deleting a video, selecting one FHD video from among FHD videos in a time zone where the NG cut occurred, and inserting the video into the time zone where the NG cut occurred.
  10. 제9항에 있어서,According to claim 9,
    상기 사용자 단말기가 상기 확인 요청에 대하여 상기 제작이 완료된 동영상 내 NG컷이 발생하지 않은 것으로 응답한 경우, 상기 제작 동영상 출력/수정부는 상기 사용자 단말기의 응답을 사용자 관리 장치의 결제 요청/확인부에 전달하는, 동영상 자동 제작 시스템.When the user terminal responds to the confirmation request that no NG cut has occurred in the produced video, the production video output/editing unit transmits the user terminal's response to the payment request/confirmation unit of the user management device , video automatic production system.
PCT/KR2022/018776 2021-11-29 2022-11-25 System for automatically producing video WO2023096392A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0167470 2021-11-29
KR1020210167470A KR102424150B1 (en) 2021-11-29 2021-11-29 An automatic video production system

Publications (1)

Publication Number Publication Date
WO2023096392A1 true WO2023096392A1 (en) 2023-06-01

Family

ID=82606202

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/018776 WO2023096392A1 (en) 2021-11-29 2022-11-25 System for automatically producing video

Country Status (2)

Country Link
KR (1) KR102424150B1 (en)
WO (1) WO2023096392A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102424150B1 (en) * 2021-11-29 2022-07-22 주식회사 콘텐츠민주주의 An automatic video production system
KR102496362B1 (en) 2022-11-15 2023-02-06 (주)빛글림 System and method for producing video content based on artificial intelligence

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100069305A (en) * 2008-12-16 2010-06-24 삼성전자주식회사 Apparatus for editing image and method thereof
KR101148044B1 (en) * 2010-12-03 2012-05-24 에이스텔 주식회사 System of providing sub information for ultra high-definition image service and the method thereof
KR20140054518A (en) * 2012-10-29 2014-05-09 삼성전자주식회사 Image processing appparatus and control method thereof
KR20200022640A (en) * 2018-08-23 2020-03-04 버스킹티비 주식회사 System for selecting segmentation video using high definition camera and the method thereof
KR102264083B1 (en) * 2020-06-23 2021-06-11 주식회사 픽스트리 Method And Apparatus System for Selling Personal Contents by Using Inserting Advertisement
KR102424150B1 (en) * 2021-11-29 2022-07-22 주식회사 콘텐츠민주주의 An automatic video production system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100867407B1 (en) 2007-03-06 2008-11-06 한국과학기술원 Movable Immersive Virtual Environment System

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100069305A (en) * 2008-12-16 2010-06-24 삼성전자주식회사 Apparatus for editing image and method thereof
KR101148044B1 (en) * 2010-12-03 2012-05-24 에이스텔 주식회사 System of providing sub information for ultra high-definition image service and the method thereof
KR20140054518A (en) * 2012-10-29 2014-05-09 삼성전자주식회사 Image processing appparatus and control method thereof
KR20200022640A (en) * 2018-08-23 2020-03-04 버스킹티비 주식회사 System for selecting segmentation video using high definition camera and the method thereof
KR102264083B1 (en) * 2020-06-23 2021-06-11 주식회사 픽스트리 Method And Apparatus System for Selling Personal Contents by Using Inserting Advertisement
KR102424150B1 (en) * 2021-11-29 2022-07-22 주식회사 콘텐츠민주주의 An automatic video production system

Also Published As

Publication number Publication date
KR102424150B1 (en) 2022-07-22

Similar Documents

Publication Publication Date Title
WO2023096392A1 (en) System for automatically producing video
US20010037499A1 (en) Method and system for recording auxiliary audio or video signals, synchronizing the auxiliary signal with a television singnal, and transmitting the auxiliary signal over a telecommunications network
WO2011049353A2 (en) System and method for providing electronic learning content
WO2020111426A1 (en) Method and system of presenting moving images or videos corresponding to still images
CN105376547A (en) Micro video course recording system and method based on 3D virtual synthesis technology
WO2022114438A1 (en) Internet of things-based remote controllable interactive board system using blockchain
WO2018084359A1 (en) Experience sharing system
WO2019160275A1 (en) Electronic device and method for generating summary image of electronic device
CN107734212A (en) A kind of automatic recorded broadcast director system
WO2022045516A1 (en) Audio and video synchronization method and device
WO2022092439A1 (en) Speech image provision method, and computing device for performing same
WO2018124794A1 (en) Camerawork-based image synthesis system and image synthesis method
Luzuriaga et al. Software-based video–audio production mixer via an IP network
WO2020116740A1 (en) Real-time broadcasting editing system and editing method
CN108305514A (en) A kind of one-to-one tutoring system and teaching method
WO2017209468A1 (en) Chroma-key synthesizing system and method for providing three dimensional stereoscopic effects
WO2017217787A1 (en) System and method for providing studio equipment control sequence sharing service
WO2020231215A1 (en) Method, system, and non-transitory computer-readable recording medium for providing content comprising augmented reality object by using plurality of devices
WO2017124340A1 (en) Figure recognition method and system for network video conference
WO2020009365A1 (en) Display apparatus and control method thereof and recording medium
WO2020138541A1 (en) Method and apparatus for generating multi-channel video using mobile terminal
WO2021137580A1 (en) Electronic device and control method thereof
WO2018155910A1 (en) Method, for supporting relay broadcast, device and non-transitory computer-readable recording medium
WO2022039423A1 (en) Display apparatus and controlling method therefor
WO2024038975A1 (en) Apparatus and method for providing speech video

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22899074

Country of ref document: EP

Kind code of ref document: A1