WO2024106630A1 - 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법 - Google Patents

인공지능 기반 영상 콘텐츠 제작 시스템 및 방법 Download PDF

Info

Publication number
WO2024106630A1
WO2024106630A1 PCT/KR2023/003935 KR2023003935W WO2024106630A1 WO 2024106630 A1 WO2024106630 A1 WO 2024106630A1 KR 2023003935 W KR2023003935 W KR 2023003935W WO 2024106630 A1 WO2024106630 A1 WO 2024106630A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
video content
images
function
artificial intelligence
Prior art date
Application number
PCT/KR2023/003935
Other languages
English (en)
French (fr)
Inventor
박진형
Original Assignee
주식회사 빛글림
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 빛글림 filed Critical 주식회사 빛글림
Publication of WO2024106630A1 publication Critical patent/WO2024106630A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/68Circuits for processing colour signals for controlling the amplitude of colour signals, e.g. automatic chroma control circuits

Definitions

  • the present invention relates to a video content production system, and particularly to an artificial intelligence-based video content production system and method that automates a certain portion of the video content production process by applying artificial intelligence technology.
  • the producer In order to produce video content, the producer must plan the topic of the video content, film the video accordingly, determine the length and order of the filmed video, go through the editing process, and insert other subtitles and effects to create visual video elements. A number of cumbersome tasks, such as the process of adding , must be performed.
  • the present invention was created to solve the above-mentioned problems.
  • the video source is prepared by filming the entire video, and the editing procedure is performed using a high-cost shooting correction device, etc.
  • the challenge is to provide a video content production system that can create new video content with only a small number of partial images based on artificial intelligence technology, rather than performing video content.
  • the present invention provides a video content production system that can replace some of the numerous production procedures that must be performed to produce video content, such as video shooting, editing, and effect insertion, with an automatic production method based on artificial function technology. There are other tasks to do.
  • the artificial intelligence-based video content production system analyzes common area pixels and lines from a plurality of image sources and overlaps part of the common area to generate one entire image.
  • a stitching unit a first learning model that calculates similarity between two images by learning a plurality of first and second sample images targeting the same subject and having different resolutions, and using the first learning model.
  • an upscaling unit that upscales the resolution of the entire video, and a second learning model learned using a plurality of learning images similar to a style to be reflected in the video content, and the entire video is learned through the second learning model.
  • It may include an object creation unit that converts an object to appear in video content selected from the video into an object with an intended style.
  • the plurality of image sources include a plurality of partial images captured by the mobile terminal, respectively, dividing the entire area of the subject into a plurality of partial regions and sequentially proceeding from one partial region to the remaining partial regions through a panorama function. can do.
  • the stitching unit has an identification function for identifying a common area in which 20% to 30% of the pixels constituting each partial image are common with other partial images, and the identified common area is provided on one plane corresponding to the entire image to be implemented.
  • a matching function that generates one entire image by matching partial images so that they overlap, and the discrepancy between pixels that occurs in the overlapping portion of two or more partial images that are matched so that some areas within the entire image overlap is converted to the average value between the two matched pixels. It may include a replacement image normalization function and a color integration function to correct color difference for each partial image of the combined image.
  • the first and second sample images are images with resolutions of 3840 ⁇ 2160 and 1920 ⁇ 1080, respectively, for the same image, and the upscaling unit inputs more than 50,000 first sample images and second sample images to the first learning model, respectively.
  • a scale learning function that performs learning a similarity calculation function that calculates the similarity between a high-resolution image and a low-resolution image using the first learning model, and a similarity calculation function that receives the entire image and reflects the similarity to produce blur, down-sampling, and noise.
  • an upscaling function may be included to upscale the resolution of the entire image by applying one or more effects.
  • the object generator has a style learning function that performs learning by inputting a number of learning images similar to the style to be reflected in the video content into a second learning model, and a Deep Painterly Harmonization (DPH) technique using the second learning model.
  • DPH Deep Painterly Harmonization
  • it may include a style conversion function for converting the style of the converted image including the object desired to appear in the video content in the entire video, and an object extraction function for extracting the converted object by removing the background area from the converted image. You can.
  • the converted object may be a RAW format file.
  • the artificial intelligence-based video content production method divides the entire area of the subject into a plurality of partial areas from a mobile terminal, and operates a panorama function.
  • the resolution of the entire image is determined by learning a plurality of first and second sample images with different resolutions targeting the same subject and using a first learning model that calculates the similarity between the two images.
  • the object to appear in the video content selected from the entire video is transformed into an object with the intended style. It may include a conversion step.
  • a partial image captured through a mobile terminal, etc. is restored to the entire image through a stitching technique, and a similar object is created through upscaling and DPH based on artificial intelligence technology and applied to the image,
  • FIG. 1 is a diagram showing the structure of an artificial intelligence-based video content production system according to an embodiment of the present invention.
  • Figures 2 and 3 are schematic diagrams of how the artificial intelligence-based video content production system stitches the entire video according to an embodiment of the present invention.
  • Figure 4 is a diagram illustrating a method of upscaling an image by an artificial intelligence-based video content production system according to an embodiment of the present invention.
  • Figure 5 is a diagram schematically illustrating how an artificial intelligence-based video content production system according to an embodiment of the present invention creates objects that appear in video content.
  • Figure 6 is a diagram showing an artificial intelligence-based video content production method according to an embodiment of the present invention.
  • example in this specification means serving as an example, example, or illustration, but the subject matter of the invention is not limited by such examples.
  • “comprising”, “comprising”, “having” and other similar terms are used, but when used in the claims, they are open transition words that do not exclude any additional or other elements. It is used inclusively in a similar way to the term “comprising.”
  • each function implemented in the system of the present invention may be composed of a program in module units, and may be recorded in one physical memory, or distributed and recorded between two or more memories and recording media.
  • video content production system or “system.”
  • FIG. 1 is a diagram showing the structure of an artificial intelligence-based video content production system according to an embodiment of the present invention.
  • the video content production system of the present invention and each component included therein are implemented using a known computer programming language, implemented in the form of a computer program executable by a microprocessor, and recorded on a readable and writable recording medium. You can.
  • the artificial intelligence-based video content production system analyzes common area pixels and lines from a plurality of image sources and overlaps part of the common area to create one entire image.
  • Unit 110 including a first learning model for calculating similarity between two images by learning a plurality of first and second sample images targeting the same subject and having different resolutions, and using the first learning model It includes an upscaling unit 120 that upscales the resolution of the entire video, a second learning model learned using a plurality of learning images similar to the style to be reflected in the video content, and an upscaling unit 120 that upscales the resolution of the entire video.
  • It may include an object creation unit 130 that converts an object to appear in video content selected from the video into an object with an intended style.
  • the stitching unit 110 does not allow the video producer to produce a video using a video source that contains the entire video of the subject that the video producer wants to reflect in the video content he or she wants to produce, but rather creates a video on the subject.
  • the entire large-area image can be reconstructed by stitching multiple small image sources obtained through partial shooting, as if small videos were connected through the stitching technique.
  • the subject can be not only an object or background, but also a picture, a still image displayed on a display screen, etc.
  • a large-area image is realized by combining images of relatively small areas, which can be used by individuals or experts. This is to enable the production of video content using video sources acquired through mobile terminals, etc. rather than shooting devices.
  • the stitching unit 110 has an identification function 111 that identifies a common area in which 20% to 30% of the pixels constituting each partial image are common with other partial images, and a plane corresponding to the entire image to be implemented.
  • a matching function 113 that generates one full image by matching partial images so that identified common areas overlap, and pixels generated in the overlapping portion of two or more partial images matched so that partial areas overlap within the full image. It may include an image normalization function 115 that replaces the gap between the two matched pixels with an average value between the two matched pixels, and a color integration function 117 that corrects color difference for each partial image of the combined image.
  • the identification function 111 is a function that identifies a common area indicating the same object between input partial images and analyzes pixels in the common area and the lines formed by the pixels. Since the image source is a partial image captured while moving the entire area of the subject, it can be combined to create one entire image. Accordingly, the identification function 111 analyzes a plurality of image sources input to implement the entire image and identifies where each partial image corresponds to the entire image.
  • the matching function 113 is a function that reconstructs a single image by matching image sources whose positions have been identified on a plane corresponding to the entire image. According to this matching function 113, each partial image has a common area, that is, an overlapping area, with the remaining partial images, so the stitching unit 110 finds this common area, arranges it on a plane, and combines them. Thus, matching can be performed. At this time, the common area may be arranged so that 20% to 30% of the pixels constituting each partial image overlap with other partial images.
  • the flattening function 115 is a function to remove deviations between partial images matched on a plane to create a single, natural overall image. Since the partial images matched on the plane are images taken with the viewpoint and angle moved in different directions from the camera, there are subtle differences even if they are shot at the same point with respect to the subject.
  • the stitching unit 110 can minimize the sense of heterogeneity in the portion where the partial images are connected by correcting the pixel value with the average value of the two pixels.
  • the color integration function 117 corrects differences in brightness and color to remove color imbalance between each partial image in the entire image connected by stitching, thereby minimizing the feeling of staining in the entire image.
  • the upscaling unit 120 performs upscaling according to the target resolution of the video content for which the entire video is to be produced.
  • the entire video has a low resolution of 4K (3840 ⁇ 2160) or lower, especially FHD (1920 ⁇ 1080) or lower, the artificial intelligence model It is possible to provide a function to convert this to have a resolution of 4K or higher.
  • the upscaling unit 120 uses a scale learning function 122 that performs learning by inputting more than 50,000 first sample images and second sample images into the first learning model, respectively, and uses the first learning model to provide high-resolution
  • a similarity calculation function 124 calculates the similarity between an image and a low-resolution image, and upscales the resolution of the entire image by receiving the entire image and applying one or more of blur, down-sampling, and noise effects to reflect the similarity.
  • An upscaling function 126 may be included.
  • the scale learning function 122 divides the learning model for scaling based on 50,000 or more high-resolution (4K or higher) first sample images and low-resolution (FHD or lower) second sample images among 150,000 sample images for learning. It can be done.
  • the similarity calculation function 124 can derive similarity between high-resolution and low-resolution images using a learned artificial intelligence model.
  • the above-described learning model can calculate the similarity between two images by comparing and learning images with different resolutions but the same content, and when the similarity is applied to a low-resolution image, a high-resolution image can be derived.
  • the upscaling function 126 can perform an upscaling procedure for the entire image using the similarity derived from the learned model.
  • image processing techniques such as blur, noise, and down sampling
  • a low-resolution image can be derived for the same image
  • the upscaling function according to an embodiment of the present invention (126) can be converted into a high-resolution entire image through inversion processing of the above-described image processing technique for the entire image based on the above similarity calculation results.
  • the object generator 130 may convert an object to appear in video content into an object with an intended style using a learning model.
  • Various backgrounds, people, and objects may appear in video content, and content creators need to convert the objects that will appear in the video content they want to produce into a form that minimizes heterogeneity with respect to the intended style and have them appear in each scene.
  • the object generator 130 can convert the entire image or any one object within the entire image into a specific intended atmosphere through an artificial intelligence learning model.
  • the object generator 130 uses the style learning function 131, which performs learning by inputting a number of learning images similar to the style to be reflected in the video content into the second learning model, and the DPH using the second learning model.
  • a style conversion function 133 that converts the style of the entire image including the object desired to appear in the video content through a (Deep Painterly Harmonization) technique, and an object that extracts the converted object by removing the background area from the converted image. May include extraction function 135.
  • the style learning function 131 learns the image style by receiving multiple learning images of the style intended by the creator as a learning model for object extraction is prepared, rather than a learning model used in the upscaling procedure by the system operator. can be performed.
  • the style conversion function 133 can convert the style of the converted image through the DPH technique for the entire image including the object to be converted prepared by the producer through a fully trained learning model.
  • the object extraction function 135 removes the background area from the entire image excluding the area corresponding to the object, leaving only the object, thereby extracting the object intended by the creator. At this time, the object creation unit 130 saves the extracted object as a general-purpose RAW format file so that the object can be applied to images of various formats.
  • Figures 2 and 3 are schematic diagrams of how the artificial intelligence-based video content production system stitches the entire video according to an embodiment of the present invention.
  • the artificial intelligence-based video content production system does not use an expensive dedicated camera device for video content production, but rather uses a smartphone, etc., that everyone has.
  • a video source for content creation can be obtained through the mobile terminal 10.
  • the image source may target various types of subjects. These subjects may include not only objects, people, and natural backgrounds, but also large-area paintings and photographs, and the producer can photograph the subject by manipulating the mobile terminal 10.
  • the mobile terminal 10 does not capture all areas of the entire large-area image (img1) at once at a wide angle, but rather captures the entire image (img1).
  • a partial area (img2) is photographed in one direction, and then the partial region (img2) is moved as if scanning to the right or left, allowing multiple image sources to be acquired through continuous shooting in a panoramic manner.
  • a plurality of video sources captured in this manner can be input to the video content production system 100 of the present invention in a wired or wireless manner.
  • multiple image sources input to the system can be converted into one entire image through a stitching technique.
  • the system identifies common areas through analysis of common areas and lines in multiple image sources, which are partial images, and arranges each common area on the plane to overlap by approximately 20% to 30% (a) to complete one entire image. You can do it (b).
  • Figure 4 is a diagram illustrating a method of upscaling an image by an artificial intelligence-based video content production system according to an embodiment of the present invention.
  • the artificial intelligence-based video content production system can convert low-definition video of FHD or lower into high-definition quality through upscaling.
  • the system divides the learning model for scaling based on 50,000 or more high-resolution first sample images and low-resolution second sample images among 150,000 sample images to derive similarity, and derives the similarity above. Based on the calculation results, the entire image is converted to high resolution through inversion processing of blur, noise, and down sampling.
  • Figure 5 is a diagram schematically illustrating how an artificial intelligence-based video content production system according to an embodiment of the present invention creates objects that appear in video content.
  • the system allows a producer to convert an object to appear in video content into an object with an intended style and provide the object.
  • the system reads learning images similar to the style of video content from the database (a), inputs them into an artificial intelligence-based learning model, and performs deep learning (b). ), for the object (obj) that is to be converted from the entire image, designate the area corresponding to the object (s1), apply the object by matching the designated area to the entire image (s2), and apply a learning model to the applied object. Convert the style by applying the DPH technique based on (s3).
  • the background area excluding the object is removed from the style-converted image and saved as a RAW file, thereby creating the intended object (d).
  • Figure 6 is a diagram showing an artificial intelligence-based video content production method according to an embodiment of the present invention.
  • the executor of each step is the system of the present invention and its components, unless otherwise specified.
  • the artificial intelligence-based video content production method divides the entire area of the subject into a plurality of partial areas from a mobile terminal, and divides the entire area of the subject into a plurality of partial areas through the panorama function.
  • S100 captured partial images
  • step S110 upscaling the resolution of the entire image using a first learning model that calculates the similarity between the two images by learning a plurality of first and second sample images with different resolutions targeting the same subject
  • step S120 and through a second learning model learned using a plurality of learning images similar to the style to be reflected in the video content, the object to appear in the video content selected from the entire video is converted into an object with the intended style. It may include a conversion step (S130).
  • a producer such as an individual who wants to produce video content through the system of the present invention, photographs the subject he or she wishes to turn into content through his/her mobile terminal in a panoramic manner and divides the entire subject into a plurality of photographed parts. Images are acquired and entered into the system.
  • the system selects pixels from a plurality of image sources that are partial images of the subject. and lines are analyzed to identify the same area, and the areas of the same area are matched on a plane such that a certain portion of the area overlaps, thereby creating one entire image.
  • step S120 upscaling the resolution of the entire image using a first learning model that calculates the similarity between the two images by learning a plurality of first and second sample images with different resolutions targeting the same subject.
  • the system learns high-resolution and low-resolution images of the same content through a prepared learning model to calculate similarity according to resolution differences, and upscales the entire image generated in step S110 to generate a high-resolution entire image. do.
  • a step of converting the object to appear in the video content selected from the entire video into an object with the intended style through a second learning model learned using a plurality of learning images similar to the style to be reflected in the video content (S130 ) an artificial intelligence-based learning model is trained using a number of learning images similar to the style of video content intended by the creator, and this is used to convert the style of the object desired to appear in the entire video content and extract the object. do.
  • the producer can use the system to create his own video content by going through procedures such as motion work, sound work, and content quality confirmation for the extracted object image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 영상 콘텐츠 제작 시스템을 개시한다. 보다 상세하게는, 본 발명은 인공지능 기술을 적용하여 영상 콘텐츠 제작 절차 중, 일정 부분을 자동화한 인공지능 기반 영상 콘텐츠 제작 시스템에 관한 것이다. 본 발명의 실시예에 따르면, 모바일 단말 등을 통해 촬영된 부분 이미지를 스티칭 기법을 통해 전체 이미지로 복원하고, 인공지능 기술에 기반하여 업스케일 및 DPH를 통해 유사 객체를 생성하여 영상에 적용함으로써, 소수의 부분 이미지만으로 새로운 영상 콘텐츠를 제작함과 더불어 영상 제작 절차의 일부를 자동화 함으로써, 고비용 영상 제작 장치를 이용하지 않고도 개인도 용이하게 새로운 영상 콘텐츠를 제작할 수 있는 효과가 있다.

Description

인공지능 기반 영상 콘텐츠 제작 시스템 및 방법
본 발명은 영상 콘텐츠 제작 시스템에 관한 것으로, 특히 인공지능 기술을 적용하여 영상 콘텐츠 제작 절차 중, 일정 부분을 자동화한 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법에 관한 것이다.
영상 콘텐츠를 제작하기 위해서는, 제작자가 영상 콘텐츠의 주제를 기획하고, 그에 따라 영상을 촬영하여 하며, 촬영한 영상의 길이 및 순서를 정하여 편집과정을 거쳐야 하고, 기타 자막 및 효과를 삽입하여 시각적 영상 요소를 추가하는 과정 등 다수의 번거로운 작업을 수행하여야 한다.
특히, 최근에는 동영상 공유 사이트 혹은 소셜 네트워크 서비스(SNS)가 유행하면서 참신하고 독특한 동영상들이 다량으로 만들어지고 있다. 이러한 동영상들은 대부분 개인이 직접 연출하고 촬영하는 것에 기반하여 제작되거나 타인이 제작한 컨텐츠를 편집하는 방식으로 제작되고 있다.
그런데, 이러한 기획, 연출 및 촬영에 기반한 동영상 제작이나 편집에 기반한 동영상 제작 방식은 제작자의 많은 시간적, 재정적 투자를 요구하는 방식임에 따라, 현재 사용하기 편한 다양한 영상 제작 툴이 상용화되어 있음에도 불구하고 일반인이 쉽게 접근하기 어렵다고 할 수 있다.
일례로서, 기획 미 촬영에 기반하여 동영상을 제작하기 위해서는 카메라에 대한 재정적 투자가 필요하고, 특정 장소에서 다수의 시행착오를 수반하는 촬영 활동이라는 공간적, 시간적 비용을 지불해야만 한다.
본 발명은 전술한 문제점을 해결하기 위해 안출된 것으로, 본 발명은 개인 등이 맞춤형 영상 콘텐츠를 제작함에 있어서, 영상 전체를 촬영하여 영상소스를 준비하고, 고비용 촬영 보정 장치 등을 이용하여 편집 절차를 수행하는 것이 아닌, 인공지능 기술에 기반하여 소수의 부분 이미지만으로 새로운 영상 콘텐츠를 제작할 수 있는 영상 콘텐츠 제작 시스템을 제공하는 데 과제가 있다.
또한, 본 발명은 영상 촬영, 편집 및 효과 삽입 등의 영상 콘텐츠를 제작을 위해 수행해야 하는 다수의 제작 절차 중 일부를 인공기능 기술에 기반하여 자동 제작 방식으로 대체할 수 있는 영상 콘텐츠 제작 시스템을 제공하는 데 다른 과제가 있다.
전술한 과제를 해결하기 위해, 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템은, 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 스티칭부, 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 포함하고, 상기 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 업스케일링부 및, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 포함하고, 상기 제2 학습 모델을 통해 상기 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 객체 생성부를 포함할 수 있다.
상기 복수의 영상 소스는, 모바일 단말이 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영한 복수의 부분 영상을 포함할 수 있다.
상기 스티칭부는, 각 부분 영상을 이루는 화소의 20 % 내지 30 %가 타 부분 영상과 공통되는 공통 영역을 식별하는 식별 기능, 구현하고자 하는 전체 영상에 대응하는 하나의 평면상에, 식별된 공통 영역이 중첩되도록 부분 영상을 매칭하여 하나의 전체 영상을 생성하는 매칭 기능, 상기 전체 영상 내, 일부 영역이 중첩되도록 매칭된 둘 이상의 부분 영상의 중첩 부분에서 발생하는 화소간 어긋남을 매칭된 두 화소간 평균값으로 치환하는 영상 평단화 기능 및, 결합된 영상의 각 부분 영상에 대하여 색감차를 보정하는 색상 통합 기능을 포함할 수 있다.
상기 제1 및 제2 샘플 영상은, 동일 영상에 대하여 각각 해상도가 3840Χ2160 및 1920Χ1080인 영상이고, 상기 업스케일링부는 상기 제1 학습 모델에 5만개 이상의 제1 샘플 영상과 제2 샘플 영상을 각각 입력하여 학습을 수행하는 스케일 학습 기능, 상기 제1 학습 모델을 이용하여 고해상도 영상과 저해상도 영상간의 유사성을 계산하는 유사성 계산 기능 및, 상기 전체 영상을 입력받아, 상기 유사성을 반영하여 따라 블러, 다운 샘플링 및 노이즈 적용효과 중, 하나 이상을 적용하여 상기 전체 영상의 해상도를 업스케일링하는 업스케일링 기능을 포함할 수 있다.
상기 객체 생성부는, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 다수의 학습 영상을 제2 학습 모델에 입력하여 학습을 수행하는 스타일 학습 기능, 상기 제2 학습 모델을 이용하여 DPH(Deep Painterly Harmonization) 기법을 통해, 상기 전체 영상에서 영상 콘텐츠에 등장시키고자 하는 객체를 포함하는 변환 이미지의 스타일을 변환하는 스타일 변환 기능 및, 상기 변환 이미지에서 배경 영역을 제거하여 변환된 객체를 추출하는 객체 추출 기능을 포함할 수 있다.
상기 변환된 객체는, RAW 형식의 파일일 수 있다.
또한, 전술한 과제를 해결하기 위해, 본 발명의 다른 양태의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 방법은, 모바일 단말로부터, 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영된 복수의 부분 영상을 입력받는 단계, 상기 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 단계, 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 단계 및, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 통해 상기 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 모바일 단말 등을 통해 촬영된 부분 이미지를 스티칭 기법을 통해 전체 이미지로 복원하고, 인공지능 기술에 기반하여 업스케일 및 DPH를 통해 유사 객체를 생성하여 영상에 적용함으로써, 소수의 부분 이미지만으로 새로운 영상 콘텐츠를 제작함과 더불어 영상 제작 절차의 일부를 자동화 함으로써, 고비용 영상 제작 장치를 이용하지 않고도 개인도 용이하게 새로운 영상 콘텐츠를 제작할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템의 구조를 나타낸 도면이다.
도 2 및 도 3은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 전체 영상을 스티칭하는 방법을 모식화한 도면이다.
도 4는 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 영상을 업스케일링하는 방법을 모식화하는 도면이다.
도 5는 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 영상 콘텐츠에 등장하는 객체를 생성하는 방법을 모식화한 도면이다.
도 6은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 방법을 나타낸 도면이다.
설명에 앞서, 명세서 전체에서 어떤 부분이 어떤 구성요소를 "구비" 또는 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부(Unit)", "...서버(Server)", "...시스템(System)" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어, 소프트웨어 또는, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
또한, 본 명세서에서 "실시예"라는 용어는 예시, 사례 또는 도해의 역할을 하는 것을 의미하나, 발명의 대상은 그러한 예에 의해 제한되지 않는다. 또한, "포함하는", "구비하는", "갖는" 및 다른 유사한 용어가 사용되고 있으나, 청구범위에서 사용되는 경우 임의의 추가적인 또는 다른 구성요소를 배제하지 않는 개방적인 전환어(Transition word)로서 "포함하는(Comprising)"이라는 용어와 유사한 방식으로 포괄적으로 사용된다.
본 명세서에 설명된 다양한 기법은 하드웨어 또는 소프트웨어와 함께 구현될 수 있거나, 적합한 경우에 이들 모두의 조합과 함께 구현될 수 있다. 본 명세서에 사용된 바와 같은 "...부(Unit)" 및 "...시스템(System)" 등의 용어는 마찬가지로 컴퓨터 관련 엔티티(Entity), 즉 하드웨어, 하드웨어 및 소프트웨어의 조합, 소프트웨어 또는 실행 시의 소프트웨어와 등가로 취급할 수 있다. 또한, 본 발명의 시스템에서 구현하는 각 기능은 모듈단위의 프로그램으로 구성될 수 있고, 하나의 물리적 메모리에 기록되거나, 둘 이상의 메모리 및 기록매체 사이에 분산되어 기록될 수 있다.
이하의 설명에서, 본 발명의 "인공지능 기반 영상 콘텐츠 제작 시스템"을 가리키는 용어는, "영상 콘텐츠 제작 시스템" 또는 "시스템"으로 약식 표시될 수 있다.
이하, 도면을 참조하여 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법을 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템의 구조를 나타낸 도면이다. 이하의 설명에서 본 발명의 영상 콘텐츠 제작 시스템 및 이에 포함되는 각 구성부들은 공지의 컴퓨터 프로그래밍 언어에 의해 구현되고, 마이크로프로세서에 의해 실행 가능한 컴퓨터 프로그램 형태로 구현되어 읽고 쓰기가 가능한 기록매체에 기록될 수 있다.
도 1을 참조하면, 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템은, 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 스티칭부(110), 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 포함하고, 제1 학습 모델을 이용하여 전체 영상의 해상도를 업스케일링하는 업스케일링부(120) 및, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 포함하고, 제2 학습 모델을 통해 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 객체 생성부(130)를 포함할 수 있다.
상세하게는, 스티칭부(110)는 영상 제작자가 자신이 제작하고자 하는 영상 콘텐츠에 반영하고자 하는 피사체에 대한 영상 전체를 하나의 화면에 담은 영상 소스를 이용하여 영상을 제작하도록 하는 것이 아닌, 피사체에 대하여 부분 촬영을 통해 획득한 복수의 작은 영상 소스를 스티칭(Stitching) 기법을 통해 마치 작은 동영상들을 이어 붙여 대면적의 전체 영상을 재구성할 수 있다.
여기서, 피사체는 사물, 배경 뿐만 아니라, 그림, 디스플레이 화면을 통해 표시되는 정지영상 등이 될 수 있다.
그리고, 본 발명의 실시예에서 영상 콘텐츠를 구현하기 위해 카메라를 통해 한번에 촬영된 하나의 대면적 영상을 이용하는 것이 아닌, 상대적으로 작은 면적의 영상들을 결합하여 대면적 영상을 구현하는 것은 개인이 전문가용 촬영 장치가 아닌 모바일 단말 등을 통해 획득한 영상 소스를 이용하여 영상 콘텐츠를 제작할 수 있도록 하기 위함이다.
이를 위해, 스티칭부(110)는 각 부분 영상을 이루는 화소의 20 % 내지 30 %가 타 부분 영상과 공통되는 공통 영역을 식별하는 식별 기능(111), 구현하고자 하는 전체 영상에 대응하는 하나의 평면상에, 식별된 공통 영역이 중첩되도록 부분 영상을 매칭하여 하나의 전체 영상을 생성하는 매칭 기능(113), 전체 영상 내, 일부 영역이 중첩되도록 매칭된 둘 이상의 부분 영상의 중첩 부분에서 발생하는 화소간 어긋남을 매칭된 두 화소간 평균값으로 치환하는 영상 평단화 기능(115) 및, 결합된 영상의 각 부분 영상에 대하여 색감차를 보정하는 색상 통합 기능(117)을 포함할 수 있다.
구체적으로, 식별 기능(111)은 입력되는 부분 영상간에 동일 대상을 가리키는 공통 영역을 식별하고, 공통 영역내 화소 및 화소들이 이루는 라인을 분석하는 기능이다. 영상 소스는 피사체의 전 영역을 이동하면서 촬영한 부분 영상임에 따라, 이를 조합하여 하나의 전체 영상을 구현할 수 있다. 이에 식별 기능(111)은 전체 영상의 구현을 위해 입력되는 복수의 영상 소스를 분석하여 각 부분 영상이 전체 영상에서 어디에 해당하는지 식별한다.
매칭 기능(113)은 위치가 식별된 영상 소스들을 전체 영상에 대응하는 평면상에 매칭하여 하나의 영상 형태로 재구성하는 기능이다. 이러한 매칭 기능(113)에 의하면, 각 부분 영상에는 나머지 부분 영상들과 공통되는 영역, 즉 중첩되는 영역이 존재함에 따라, 스티칭부(110)는 이러한 공통 영역을 찾아 평면상에 배치하고, 이를 결합하여 매칭을 수행할 수 있다. 이때, 공통 영역은 각 부분 영상을 이루는 화소의 20 % 내지 30 %가 타 부분 영상과 중첩되도록 배치될 수 있다.
평단화 기능(115)은 평면상에 매칭된 부분 영상간에 편차를 제거하여 하나의 자연스러운 전체 영상을 구현하기 위한 기능이다. 평면상에 매칭된 부분 영상들은 각각 카메라로부터 다른 방향에서 시점 및 각도가 이동되며 촬영된 영상임에 따라 피사체에 대하여 동일 지점을 촬영한 것이라 하더라도 미세한 차이가 존재하게 된다.
이에 따라, 스티칭부(110)는 전체 영상에서 중첩된 부분의 화소간 차이가 존재하는 경우, 그 두 화소의 평균값으로 화소값을 보정하여 부분 영상이 연결되는 부분에서 이질감을 최소화할 수 있다.
색상 통합 기능(117)은 스티칭에 의해 연결된 전체 영상에서 각 부분 영상간 색상 불균형을 제거하기 위해 밝기, 색감 등의 차이를 보정함으로써, 전체 영상에 대하여 얼룩과 같은 느낌을 최소화할 수 있다.
업스케일링부(120)는 전체 영상을 제작하고자 하는 영상 콘텐츠의 목표 해상도에 맞게 업스케일링을 수행하는 것으로, 전체 영상이 4K(3840Χ2160) 이하, 특히 FHD(1920Χ1080)이하의 저해상도일 때, 인공지능 모델을 이용하여 이를 4K 이상의 해상도를 갖도록 변환하는 기능을 제공할 수 있다.
이를 위해, 업스케일링부(120)는 제1 학습 모델에 5만개 이상의 제1 샘플 영상과 제2 샘플 영상을 각각 입력하여 학습을 수행하는 스케일 학습 기능(122), 제1 학습 모델을 이용하여 고해상도 영상과 저해상도 영상간의 유사성을 계산하는 유사성 계산 기능(124) 및, 전체 영상을 입력받아, 유사성을 반영하여 따라 블러, 다운 샘플링 및 노이즈 적용효과 중, 하나 이상을 적용하여 전체 영상의 해상도를 업스케일링하는 업스케일링 기능(126)을 포함할 수 있다.
스케일 학습 기능(122)은 스케일링을 위한 학습 모델을 15만개의 샘플 영상 중, 5만개 이상의 고해상도(4K 이상)의 제1 샘플 영상과 저해상도(FHD 이하)의 제2 샘플 영상을 기준으로 나누어 학습을 수행할 수 있다.
유사성 계산 기능(124)은 학습된 인공지능 모델을 이용하여 고해상도 및 저해상도 영상간에 유사성을 도출할 수 있다. 전술한 학습 모델은 해상도가 서로 다르나 동일한 내용의 영상 비교 학습을 통해 두 영상간의 유사성을 계산할 수 있으며, 그 유사성을 저해상도의 영상에 적용하면, 고해상도의 영상을 도출할 수 있게 된다.
업스케일링 기능(126)은 학습이 완료된 학습 모델로부터 도출된 유사성을 이용하여, 전체 영상에 대한 업스케일링(Upscaling) 절차를 수행할 수 있다. 고해상도 영상에 블러(blur), 노이즈(noise) 및 다운 샘플링(down sampling) 등의 영상 처리 기법을 적용하면, 동일 영상에 대한 저해상도 영상을 도출할 수 있으며, 본 발명의 실시예에 따른 업스케일링 기능(126)은 상기의 유사성 계산 결과에 기초하여 전체 영상에 대한 전술한 영상 처리 기법의 반전 처리를 통해 고해상도의 전체 영상으로 변환할 수 있다.
객체 생성부(130)는, 학습 모델을 이용하여 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환할 수 있다. 영상 콘텐츠에는 다양한 배경, 인물 및 사물 등이 등장할 수 있고, 콘텐츠 제작자는 자신이 제작하고자 하는 영상 콘텐츠에 등장할 객체를 의도한 스타일에 대하여 이질감이 최소화된 형태로 변환하여 각 장면에 등장시킬 필요가 있으며, 이에 객체 생성부(130)는 인공지능 학습 모델을 통해 전체 영상 또는 전체 영상내 어느 하나의 객체를 의도한 특정 분위기로 변환할 수 있다.
이를 위해, 객체 생성부(130)는 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 다수의 학습 영상을 제2 학습 모델에 입력하여 학습을 수행하는 스타일 학습 기능(131), 제2 학습 모델을 이용하여 DPH(Deep Painterly Harmonization) 기법을 통해 상기 영상 콘텐츠에 등장시키고자 하는 객체를 포함하는 전체 영상의 스타일을 변환하는 스타일 변환 기능(133) 및, 변환 이미지에서 배경 영역을 제거하여 변환된 객체를 추출하는 객체 추출 기능(135)을 포함할 수 있다.
스타일 학습 기능(131)은 시스템 운영자에 의한 업스케일링 절차에서 이용한 학습 모델이 아닌, 객체 추출을 위한 학습 모델이 준비됨에 따라, 제작자가 의도한 스타일의 학습 영상을 다수개 입력받아 영상 스타일에 대한 학습을 수행할 수 있다.
스타일 변환 기능(133)은 학습이 완료된 학습 모델을 통해, 제작자가 준비한 변환하고자 하는 객체를 포함하는 전체 영상에 대하여 DPH 기법을 통해 변환 이미지의 스타일을 변환할 수 있다.
객체 추출 기능(135)은 전체 영상으로부터 객체에 해당하는 영역을 제외한 나머지 배경 영역을 제거하여 객체만을 남겨둠으로써, 제작자가 의도한 객체를 추출할 수 있다. 이때, 객체 생성부(130)는 추출된 객체에 대하여 범용의 RAW 형식의 파일로 저장함으로써 다양한 포맷의 영상에 객체를 적용할 수 있도록 한다.
이하, 도면을 참조하여 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템을 이용한 영상 처리 방법을 구체적으로 설명한다.
도 2 및 도 3은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 전체 영상을 스티칭하는 방법을 모식화한 도면이다.
도 2 및 도 3을 참조하면, 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템은, 영상 콘텐츠 제작을 위한 고가의 전용 카메라 장치를 이용하는 것이 아닌, 개인 누구나가 소지하고 있는 스마트폰 등의 모바일 단말(10)을 통해 콘텐츠 제작을 위한 영상 소스를 획득할 수 있다.
본 발명에서, 영상 소스는 다양한 형태의 피사체를 대상으로 할 수 있다. 이러한 피사체에는, 사물, 사람 및 자연배경 뿐만 아니라, 대면적의 그림, 사진 등도 해당될 수 있으며, 제작자는 모바일 단말(10)을 조작하여 피사체를 촬영할 수 있다.
이때, 피사체가 대면적의 그림 또는 디스플레이를 통해 표시되는 이미지 일 경우, 모바일 단말(10)은 대면적의 전체 이미지(img1)의 모든 영역을 광각으로 한번에 촬영하는 것이 아닌, 전체 이미지(img1)에 대하여 일 방향을 향해 부분 영역(img2)을 촬영하고, 이어서 부분 영역(img2)의 우 또는 좌 방향으로 스캔하듯이 이동하여 파노라마 방식으로 연속촬영을 통해 복수의 영상 소스를 획득할 수 있다.
이러한 방식으로 촬영된 복수의 영상 소스는 유선 또는 무선 방식으로 본 발명의 영상 콘텐츠 제작 시스템(100)에 입력될 수 있다.
이후, 시스템에 입력된 복수의 영상 소스는 스티칭 기법을 통해 하나의 전체 영상으로 변환될 수 있다.
시스템은 부분 영상인 복수의 영상 소스에서 공통되는 영역 및 라인 분석을 통해 공통 영역을 식별하고, 평면상에 각 공통 영역을 20 % ~ 30 % 내외로 중첩 배치하여(a) 하나의 전체 영상을 완성할 수 있다(b).
도 4는 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 영상을 업스케일링하는 방법을 모식화하는 도면이다.
도 4를 참조하면, 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템은, FHD 이하의 저화질 영상에 대한 업스케일링을 통해 고화질로 변환할 수 있다.
이는, 4K 이상의 고해상도 영상에 블러(blur), 노이즈(noise) 및 다운 샘플링(down sampling) 등의 영상 처리 기법을 적용하면, FHD 이하의 저해상도 영상을 도출할 수 있고, 그 고해상도 영상 및 저해상도 영상간의 유사성을 이용하여 저해상도의 전체 영상을 고해상도로 변환하는 방식이다.
이를 위해, 시스템은 스케일링을 위한 학습 모델을 15만개의 샘플 영상 중, 5만개 이상의 고해상도의 제1 샘플 영상과 저해상도의 제2 샘플 영상을 기준으로 나누어 학습을 수행하여 유사성을 도출하고, 상기의 유사성 계산 결과에 기초하여 전체 영상을 대한 블러(blur), 노이즈(noise) 및 다운 샘플링(down sampling)의 반전 처리를 통해 고해상도로 변환하게 된다.
도 5는 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 영상 콘텐츠에 등장하는 객체를 생성하는 방법을 모식화한 도면이다.
도 5를 참조하면, 본 발명의 실시예에 따른 시스템은, 제작자가 영상 콘텐츠에 등장할 객체를 등장할 객체를 의도한 스타일을 갖는 객체로 변환하여 제공할 수 있다.
이를 위해, 본 발명의 실시예에 따른 시스템은, 데이터 베이스(a)로부터 영상 콘텐츠의 스타일과 유사한 학습 이미지를 읽어드려 인공지능 기반 학습 모델에 입력하여 딥 러닝(deep-learinig)을 수행하고(b), 전체 영상으로부터 변환하고자 하는 대상인 객체(obj)에 대하여, 그 객체에 대응하는 영역을 지정하고(s1), 지정된 영역을 전체 영상에 매칭하여 객체를 적용하고(s2), 적용된 객체에 학습 모델에 기반한 DPH 기법을 적용하여 스타일을 변환한다(s3).
이후, 스타일이 변환된 영상에서 객체를 제외한 배경 영역을 제거하고 RAW 파일로 저장함으로써, 의도한 객체를 생성하게 된다(d).
이하, 전술한 구조에 따른 인공지능 기반 영상 콘텐츠 제작 시스템을 이용하여 영상을 제작하는 방법을 상세히 설명한다.
도 6은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 방법을 나타낸 도면이다. 이하의 단계에서 각 단계별 실행주체는 별도의 기재가 없는 한 본 발명의 시스템 및 그 구성부가 된다.
도 6을 참조하면, 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 방법은, 모바일 단말로부터, 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영된 복수의 부분 영상을 입력받는 단계(S100), 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 단계(S110), 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 단계(S120) 및, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 통해 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 단계(S130)를 포함할 수 있다.
상세하게는, 모바일 단말로부터, 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영된 복수의 부분 영상을 입력받는 단계(S100)에서는, 본 발명의 시스템을 통해 영상 콘텐츠를 제작하고자 하는 개인 등의 제작자가 자신이 소지한 모바일 단말을 통해 콘텐츠화하고자하는 피사체를 파노라마 방식으로 촬영하여 피사체 전체를 나누어 촬영한 복수의 부분 영상을 획득하고, 이를 시스템에 입력하게 된다.
다음으로, 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 단계(S110)에서는, 시스템이 피사체에 대한 부분 영상인 복수의 영상 소스의 화소 및 라인을 분석하여 동일 영역을 식별하고, 동일 영역의 면적이 일정 부분 겹치도록 한 평면상에 매칭함으로써 하나의 전체 영상을 생성하게 된다.
다음으로, 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 단계(S120)에서는, 시스템이 준비된 학습 모델을 통해 동일 내용의 고해상도 및 저해상도 영상을 학습하여 해상도 차이에 따른 유사성을 산출하고, S110 단계에서 생성된 전체 영상을 업스케일링하여 고해상도의 전체 영상을 생성하게 된다.
그리고, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 통해 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 단계(S130)에서는, 제작자가 의도한 영상 콘텐츠의 스타일과 유사한 다수의 학습 이미지를 이용하여 인공지능 기반 학습 모델을 학습시키고, 이를 이용하여 전체 영상 콘텐츠에 등장시키고자 하는 객체의 스타일을 변환하고 객체를 추출하게 된다.
이후, 도시되어 있지는 않지만, 제작자는 시스템을 활용하여 추출된 객체 이미지에 대하여 모션작업, 음향작업 및 콘텐츠 품질 확인 등의 절차를 거쳐 제작자만의 영상 콘텐츠를 제작할 수 있다.
상기한 설명에 많은 사항이 구체적으로 기재되어 있으나 이것은 발명의 범위를 한정하는 것이라기보다 바람직한 실시예의 예시로서 해석되어야 한다. 따라서, 발명은 설명된 실시예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위에 균등한 것에 의하여 정하여져야 한다.

Claims (7)

  1. 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 스티칭부;
    동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 포함하고, 상기 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 업스케일링부; 및
    영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 포함하고, 상기 제2 학습 모델을 통해 상기 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 객체 생성부
    를 포함하는 인공지능 기반 영상 콘텐츠 제작 시스템.
  2. 제 1 항에 있어서,
    상기 복수의 영상 소스는,
    모바일 단말이 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영한 복수의 부분 영상
    을 포함하는 인공지능 기반 영상 콘텐츠 제작 시스템.
  3. 제 2 항에 있어서,
    상기 스티칭부는,
    각 부분 영상을 이루는 화소의 20 % 내지 30 %가 타 부분 영상과 공통되는 공통 영역을 식별하는 식별 기능;
    구현하고자 하는 전체 영상에 대응하는 하나의 평면상에, 식별된 공통 영역이 중첩되도록 부분 영상을 매칭하여 하나의 전체 영상을 생성하는 매칭 기능;
    상기 전체 영상 내, 일부 영역이 중첩되도록 매칭된 둘 이상의 부분 영상의 중첩 부분에서 발생하는 화소간 어긋남을 매칭된 두 화소간 평균값으로 치환하는 영상 평단화 기능; 및
    결합된 영상의 각 부분 영상에 대하여 색감차를 보정하는 색상 통합 기능
    을 포함하는 인공지능 기반 영상 콘텐츠 제작 시스템.
  4. 제 1 항에 있어서,
    상기 제1 및 제2 샘플 영상은, 동일 영상에 대하여 각각 해상도가 3840Χ2160 및 1920Χ1080인 영상이고,
    상기 업스케일링부는,
    상기 제1 학습 모델에 5만개 이상의 제1 샘플 영상과 제2 샘플 영상을 각각 입력하여 학습을 수행하는 스케일 학습 기능;
    상기 제1 학습 모델을 이용하여 고해상도 영상과 저해상도 영상간의 유사성을 계산하는 유사성 계산 기능; 및
    상기 전체 영상을 입력받아, 상기 유사성을 반영하여 따라 블러, 다운 샘플링 및 노이즈 적용효과 중, 하나 이상을 적용하여 상기 전체 영상의 해상도를 업스케일링하는 업스케일링 기능
    을 포함하는 인공지능 기반 영상 콘텐츠 제작 시스템.
  5. 제 1 항에 있어서,
    상기 객체 생성부는,
    영상 콘텐츠에 반영하고자 하는 스타일과 유사한 다수의 학습 영상을 제2 학습 모델에 입력하여 학습을 수행하는 스타일 학습 기능;
    상기 제2 학습 모델을 이용하여 DPH(Deep Painterly Harmonization) 기법을 통해, 상기 전체 영상에서 영상 콘텐츠에 등장시키고자 하는 객체를 포함하는 변환 이미지의 스타일을 변환하는 스타일 변환 기능; 및
    상기 변환 이미지에서 배경 영역을 제거하여 변환된 객체를 추출하는 객체 추출 기능
    을 포함하는 인공지능 기반 영상 콘텐츠 제작 시스템.
  6. 제 5 항에 있어서,
    상기 변환된 객체는, RAW 형식의 파일인 것인, 인공지능 기반 영상 콘텐츠 제작 시스템.
  7. 청구항 1에 기재된 시스템에 의한 인공지능 기반 영상 콘텐츠 제작 방법으로서,
    모바일 단말로부터, 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영된 복수의 부분 영상을 입력받는 단계;
    상기 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 단계;
    동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 단계; 및
    영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 통해 상기 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 단계
    를 포함하는 인공지능 기반 영상 콘텐츠 제작 방법.
PCT/KR2023/003935 2022-11-15 2023-03-24 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법 WO2024106630A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0152615 2022-11-15
KR1020220152615A KR102496362B1 (ko) 2022-11-15 2022-11-15 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2024106630A1 true WO2024106630A1 (ko) 2024-05-23

Family

ID=85224291

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/003935 WO2024106630A1 (ko) 2022-11-15 2023-03-24 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR102496362B1 (ko)
WO (1) WO2024106630A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102693274B1 (ko) 2023-12-07 2024-08-09 어포나티 주식회사 인공지능 2차 콘텐츠 제작 기반의 콘텐츠 플랫폼 및 수익 공유 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180036408A (ko) * 2016-09-30 2018-04-09 삼성전자주식회사 이미지 처리 장치 및 이미지 처리 장치의 제어 방법
KR20200100558A (ko) * 2019-02-18 2020-08-26 삼성전자주식회사 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체
KR102236788B1 (ko) * 2019-10-21 2021-04-06 주식회사 픽스트리 이미지 복원 방법 및 장치
KR20210057925A (ko) * 2019-11-13 2021-05-24 한국광기술원 스트리밍 서버 및 이를 이용한 다시점 동영상에서의 객체 처리 방법
JP2022534884A (ja) * 2019-05-21 2022-08-04 コオダットゥデイ インク 認識領域のスタイルを変換するシステム及び方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102424150B1 (ko) 2021-11-29 2022-07-22 주식회사 콘텐츠민주주의 동영상 자동 제작 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180036408A (ko) * 2016-09-30 2018-04-09 삼성전자주식회사 이미지 처리 장치 및 이미지 처리 장치의 제어 방법
KR20200100558A (ko) * 2019-02-18 2020-08-26 삼성전자주식회사 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체
JP2022534884A (ja) * 2019-05-21 2022-08-04 コオダットゥデイ インク 認識領域のスタイルを変換するシステム及び方法
KR102236788B1 (ko) * 2019-10-21 2021-04-06 주식회사 픽스트리 이미지 복원 방법 및 장치
KR20210057925A (ko) * 2019-11-13 2021-05-24 한국광기술원 스트리밍 서버 및 이를 이용한 다시점 동영상에서의 객체 처리 방법

Also Published As

Publication number Publication date
KR102496362B1 (ko) 2023-02-06

Similar Documents

Publication Publication Date Title
KR102003015B1 (ko) 광류를 사용한 중간 뷰의 생성
US6909806B2 (en) Image background replacement method
CA1140677A (en) Method and apparatus for producing an image of a person's face at a different age
CN108093221B (zh) 一种基于缝合线的实时视频拼接方法
AU2019309552B2 (en) Method and data-processing system for synthesizing images
WO2024106630A1 (ko) 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법
CN113902657A (zh) 图像拼接方法、装置和电子设备
JPWO2008126371A1 (ja) 映像合成方法、映像合成システム
CN112712487A (zh) 一种场景视频融合方法、系统、电子设备及存储介质
WO2023217138A1 (zh) 一种参数配置方法、装置、设备、存储介质及产品
CN113159158B (zh) 一种基于生成对抗网络的车牌矫正与重构方法及系统
CA2233708A1 (en) Method for measuring camera and lens properties for camera tracking
WO2023080266A1 (ko) 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
JP4728795B2 (ja) 人物オブジェクト判定装置及び人物オブジェクト判定プログラム
CN116612518A (zh) 面部表情捕捉方法、系统、电子设备及介质
AU3763493A (en) A machine method for compensating for non-linear picture transformations, e.g. zoom and pan, in a video image motion compensation system
WO2022080680A1 (ko) 인공지능 기반 이미지 인페인팅 방법 및 디바이스
CN115984124A (zh) 一种神经形态脉冲信号去噪和超分辨方法及装置
RU2571574C1 (ru) Устройство объединения изображений в единую композицию с плавным переходом контрастности
CN113688674A (zh) 一种基于ar智能眼镜的局部图像识别方法及系统
CN113378923A (zh) 图像生成装置获取方法及图像生成装置
CN112232221A (zh) 用于人物图像处理的方法、系统和程序载体
Gherardi et al. Real-time whole slide mosaicing for non-automated microscopes in histopathology analysis
WO2022260385A1 (ko) 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 방법 및 장치
WO2022080681A1 (ko) 주변 영역을 고려한 이미지 인페인팅 방법 및 디바이스

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23891707

Country of ref document: EP

Kind code of ref document: A1