KR102496362B1

KR102496362B1 - 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법

Info

Publication number: KR102496362B1
Application number: KR1020220152615A
Authority: KR
Inventors: 박진형
Original assignee: (주)빛글림
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-02-06
Also published as: WO2024106630A1

Abstract

본 발명은 영상 콘텐츠 제작 시스템을 개시한다. 보다 상세하게는, 본 발명은 인공지능 기술을 적용하여 영상 콘텐츠 제작 절차 중, 일정 부분을 자동화한 인공지능 기반 영상 콘텐츠 제작 시스템에 관한 것이다.
본 발명의 실시예에 따르면, 모바일 단말 등을 통해 촬영된 부분 이미지를 스티칭 기법을 통해 전체 이미지로 복원하고, 인공지능 기술에 기반하여 업스케일 및 DPH를 통해 유사 객체를 생성하여 영상에 적용함으로써, 소수의 부분 이미지만으로 새로운 영상 콘텐츠를 제작함과 더불어 영상 제작 절차의 일부를 자동화 함으로써, 고비용 영상 제작 장치를 이용하지 않고도 개인도 용이하게 새로운 영상 콘텐츠를 제작할 수 있는 효과가 있다.

Description

인공지능 기반 영상 콘텐츠 제작 시스템 및 방법{SYSTEM AND METHOD FOR PRODUCING VIDEO CONTENT BASED ON ARTIFICIAL INTELLIGENCE}

본 발명은 영상 콘텐츠 제작 시스템에 관한 것으로, 특히 인공지능 기술을 적용하여 영상 콘텐츠 제작 절차 중, 일정 부분을 자동화한 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법에 관한 것이다.

영상 콘텐츠를 제작하기 위해서는, 제작자가 영상 콘텐츠의 주제를 기획하고, 그에 따라 영상을 촬영하여 하며, 촬영한 영상의 길이 및 순서를 정하여 편집과정을 거쳐야 하고, 기타 자막 및 효과를 삽입하여 시각적 영상 요소를 추가하는 과정 등 다수의 번거로운 작업을 수행하여야 한다.

특히, 최근에는 동영상 공유 사이트 혹은 소셜 네트워크 서비스(SNS)가 유행하면서 참신하고 독특한 동영상들이 다량으로 만들어지고 있다. 이러한 동영상들은 대부분 개인이 직접 연출하고 촬영하는 것에 기반하여 제작되거나 타인이 제작한 컨텐츠를 편집하는 방식으로 제작되고 있다.

그런데, 이러한 기획, 연출 및 촬영에 기반한 동영상 제작이나 편집에 기반한 동영상 제작 방식은 제작자의 많은 시간적, 재정적 투자를 요구하는 방식임에 따라, 현재 사용하기 편한 다양한 영상 제작 툴이 상용화되어 있음에도 불구하고 일반인이 쉽게 접근하기 어렵다고 할 수 있다.

일례로서, 기획 미 촬영에 기반하여 동영상을 제작하기 위해서는 카메라에 대한 재정적 투자가 필요하고, 특정 장소에서 다수의 시행착오를 수반하는 촬영 활동이라는 공간적, 시간적 비용을 지불해야만 한다.

등록특허공보 제10-2424150호(공고일자: 2022.07.22.)

본 발명은 전술한 문제점을 해결하기 위해 안출된 것으로, 본 발명은 개인 등이 맞춤형 영상 콘텐츠를 제작함에 있어서, 영상 전체를 촬영하여 영상소스를 준비하고, 고비용 촬영 보정 장치 등을 이용하여 편집 절차를 수행하는 것이 아닌, 인공지능 기술에 기반하여 소수의 부분 이미지만으로 새로운 영상 콘텐츠를 제작할 수 있는 영상 콘텐츠 제작 시스템을 제공하는 데 과제가 있다.

또한, 본 발명은 영상 촬영, 편집 및 효과 삽입 등의 영상 콘텐츠를 제작을 위해 수행해야 하는 다수의 제작 절차 중 일부를 인공기능 기술에 기반하여 자동 제작 방식으로 대체할 수 있는 영상 콘텐츠 제작 시스템을 제공하는 데 다른 과제가 있다.

전술한 과제를 해결하기 위해, 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템은, 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 스티칭부, 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 포함하고, 상기 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 업스케일링부 및, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 포함하고, 상기 제2 학습 모델을 통해 상기 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 객체 생성부를 포함할 수 있다.

상기 복수의 영상 소스는, 모바일 단말이 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영한 복수의 부분 영상을 포함할 수 있다.

상기 스티칭부는, 각 부분 영상을 이루는 화소의 20 % 내지 30 %가 타 부분 영상과 공통되는 공통 영역을 식별하는 식별 기능, 구현하고자 하는 전체 영상에 대응하는 하나의 평면상에, 식별된 공통 영역이 중첩되도록 부분 영상을 매칭하여 하나의 전체 영상을 생성하는 매칭 기능, 상기 전체 영상 내, 일부 영역이 중첩되도록 매칭된 둘 이상의 부분 영상의 중첩 부분에서 발생하는 화소간 어긋남을 매칭된 두 화소간 평균값으로 치환하는 영상 평단화 기능 및, 결합된 영상의 각 부분 영상에 대하여 색감차를 보정하는 색상 통합 기능을 포함할 수 있다.

상기 제1 및 제2 샘플 영상은, 동일 영상에 대하여 각각 해상도가 3840Χ2160 및 1920Χ1080인 영상이고, 상기 업스케일링부는 상기 제1 학습 모델에 5만개 이상의 제1 샘플 영상과 제2 샘플 영상을 각각 입력하여 학습을 수행하는 스케일 학습 기능, 상기 제1 학습 모델을 이용하여 고해상도 영상과 저해상도 영상간의 유사성을 계산하는 유사성 계산 기능 및, 상기 전체 영상을 입력받아, 상기 유사성을 반영하여 따라 블러, 다운 샘플링 및 노이즈 적용효과 중, 하나 이상을 적용하여 상기 전체 영상의 해상도를 업스케일링하는 업스케일링 기능을 포함할 수 있다.

상기 객체 생성부는, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 다수의 학습 영상을 제2 학습 모델에 입력하여 학습을 수행하는 스타일 학습 기능, 상기 제2 학습 모델을 이용하여 DPH(Deep Painterly Harmonization) 기법을 통해, 상기 전체 영상에서 영상 콘텐츠에 등장시키고자 하는 객체를 포함하는 변환 이미지의 스타일을 변환하는 스타일 변환 기능 및, 상기 변환 이미지에서 배경 영역을 제거하여 변환된 객체를 추출하는 객체 추출 기능을 포함할 수 있다.

상기 변환된 객체는, RAW 형식의 파일일 수 있다.

또한, 전술한 과제를 해결하기 위해, 본 발명의 다른 양태의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 방법은, 모바일 단말로부터, 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영된 복수의 부분 영상을 입력받는 단계, 상기 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 단계, 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 단계 및, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 통해 상기 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, 모바일 단말 등을 통해 촬영된 부분 이미지를 스티칭 기법을 통해 전체 이미지로 복원하고, 인공지능 기술에 기반하여 업스케일 및 DPH를 통해 유사 객체를 생성하여 영상에 적용함으로써, 소수의 부분 이미지만으로 새로운 영상 콘텐츠를 제작함과 더불어 영상 제작 절차의 일부를 자동화 함으로써, 고비용 영상 제작 장치를 이용하지 않고도 개인도 용이하게 새로운 영상 콘텐츠를 제작할 수 있는 효과가 있다.

도 1은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템의 구조를 나타낸 도면이다.
도 2 및 도 3은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 전체 영상을 스티칭하는 방법을 모식화한 도면이다.
도 4는 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 영상을 업스케일링하는 방법을 모식화하는 도면이다.
도 5는 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 영상 콘텐츠에 등장하는 객체를 생성하는 방법을 모식화한 도면이다.
도 6은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 방법을 나타낸 도면이다.

설명에 앞서, 명세서 전체에서 어떤 부분이 어떤 구성요소를 "구비" 또는 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부(Unit)", "...서버(Server)", "...시스템(System)" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어, 소프트웨어 또는, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

또한, 본 명세서에서 "실시예"라는 용어는 예시, 사례 또는 도해의 역할을 하는 것을 의미하나, 발명의 대상은 그러한 예에 의해 제한되지 않는다. 또한, "포함하는", "구비하는", "갖는" 및 다른 유사한 용어가 사용되고 있으나, 청구범위에서 사용되는 경우 임의의 추가적인 또는 다른 구성요소를 배제하지 않는 개방적인 전환어(Transition word)로서 "포함하는(Comprising)"이라는 용어와 유사한 방식으로 포괄적으로 사용된다.

본 명세서에 설명된 다양한 기법은 하드웨어 또는 소프트웨어와 함께 구현될 수 있거나, 적합한 경우에 이들 모두의 조합과 함께 구현될 수 있다. 본 명세서에 사용된 바와 같은 "...부(Unit)" 및 "...시스템(System)" 등의 용어는 마찬가지로 컴퓨터 관련 엔티티(Entity), 즉 하드웨어, 하드웨어 및 소프트웨어의 조합, 소프트웨어 또는 실행 시의 소프트웨어와 등가로 취급할 수 있다. 또한, 본 발명의 시스템에서 구현하는 각 기능은 모듈단위의 프로그램으로 구성될 수 있고, 하나의 물리적 메모리에 기록되거나, 둘 이상의 메모리 및 기록매체 사이에 분산되어 기록될 수 있다.

이하의 설명에서, 본 발명의 "인공지능 기반 영상 콘텐츠 제작 시스템"을 가리키는 용어는, "영상 콘텐츠 제작 시스템" 또는 "시스템"으로 약식 표시될 수 있다.

이하, 도면을 참조하여 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법을 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템의 구조를 나타낸 도면이다. 이하의 설명에서 본 발명의 영상 콘텐츠 제작 시스템 및 이에 포함되는 각 구성부들은 공지의 컴퓨터 프로그래밍 언어에 의해 구현되고, 마이크로프로세서에 의해 실행 가능한 컴퓨터 프로그램 형태로 구현되어 읽고 쓰기가 가능한 기록매체에 기록될 수 있다.

도 1을 참조하면, 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템은, 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 스티칭부(110), 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 포함하고, 제1 학습 모델을 이용하여 전체 영상의 해상도를 업스케일링하는 업스케일링부(120) 및, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 포함하고, 제2 학습 모델을 통해 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 객체 생성부(130)를 포함할 수 있다.

상세하게는, 스티칭부(110)는 영상 제작자가 자신이 제작하고자 하는 영상 콘텐츠에 반영하고자 하는 피사체에 대한 영상 전체를 하나의 화면에 담은 영상 소스를 이용하여 영상을 제작하도록 하는 것이 아닌, 피사체에 대하여 부분 촬영을 통해 획득한 복수의 작은 영상 소스를 스티칭(Stitching) 기법을 통해 마치 작은 동영상들을 이어 붙여 대면적의 전체 영상을 재구성할 수 있다.

여기서, 피사체는 사물, 배경 뿐만 아니라, 그림, 디스플레이 화면을 통해 표시되는 정지영상 등이 될 수 있다.

그리고, 본 발명의 실시예에서 영상 콘텐츠를 구현하기 위해 카메라를 통해 한번에 촬영된 하나의 대면적 영상을 이용하는 것이 아닌, 상대적으로 작은 면적의 영상들을 결합하여 대면적 영상을 구현하는 것은 개인이 전문가용 촬영 장치가 아닌 모바일 단말 등을 통해 획득한 영상 소스를 이용하여 영상 콘텐츠를 제작할 수 있도록 하기 위함이다.

이를 위해, 스티칭부(110)는 각 부분 영상을 이루는 화소의 20 % 내지 30 %가 타 부분 영상과 공통되는 공통 영역을 식별하는 식별 기능(111), 구현하고자 하는 전체 영상에 대응하는 하나의 평면상에, 식별된 공통 영역이 중첩되도록 부분 영상을 매칭하여 하나의 전체 영상을 생성하는 매칭 기능(113), 전체 영상 내, 일부 영역이 중첩되도록 매칭된 둘 이상의 부분 영상의 중첩 부분에서 발생하는 화소간 어긋남을 매칭된 두 화소간 평균값으로 치환하는 영상 평단화 기능(115) 및, 결합된 영상의 각 부분 영상에 대하여 색감차를 보정하는 색상 통합 기능(117)을 포함할 수 있다.

구체적으로, 식별 기능(111)은 입력되는 부분 영상간에 동일 대상을 가리키는 공통 영역을 식별하고, 공통 영역내 화소 및 화소들이 이루는 라인을 분석하는 기능이다. 영상 소스는 피사체의 전 영역을 이동하면서 촬영한 부분 영상임에 따라, 이를 조합하여 하나의 전체 영상을 구현할 수 있다. 이에 식별 기능(111)은 전체 영상의 구현을 위해 입력되는 복수의 영상 소스를 분석하여 각 부분 영상이 전체 영상에서 어디에 해당하는지 식별한다.

매칭 기능(113)은 위치가 식별된 영상 소스들을 전체 영상에 대응하는 평면상에 매칭하여 하나의 영상 형태로 재구성하는 기능이다. 이러한 매칭 기능(113)에 의하면, 각 부분 영상에는 나머지 부분 영상들과 공통되는 영역, 즉 중첩되는 영역이 존재함에 따라, 스티칭부(110)는 이러한 공통 영역을 찾아 평면상에 배치하고, 이를 결합하여 매칭을 수행할 수 있다. 이때, 공통 영역은 각 부분 영상을 이루는 화소의 20 % 내지 30 %가 타 부분 영상과 중첩되도록 배치될 수 있다.

평단화 기능(115)은 평면상에 매칭된 부분 영상간에 편차를 제거하여 하나의 자연스러운 전체 영상을 구현하기 위한 기능이다. 평면상에 매칭된 부분 영상들은 각각 카메라로부터 다른 방향에서 시점 및 각도가 이동되며 촬영된 영상임에 따라 피사체에 대하여 동일 지점을 촬영한 것이라 하더라도 미세한 차이가 존재하게 된다.

이에 따라, 스티칭부(110)는 전체 영상에서 중첩된 부분의 화소간 차이가 존재하는 경우, 그 두 화소의 평균값으로 화소값을 보정하여 부분 영상이 연결되는 부분에서 이질감을 최소화할 수 있다.

색상 통합 기능(117)은 스티칭에 의해 연결된 전체 영상에서 각 부분 영상간 색상 불균형을 제거하기 위해 밝기, 색감 등의 차이를 보정함으로써, 전체 영상에 대하여 얼룩과 같은 느낌을 최소화할 수 있다.

업스케일링부(120)는 전체 영상을 제작하고자 하는 영상 콘텐츠의 목표 해상도에 맞게 업스케일링을 수행하는 것으로, 전체 영상이 4K(3840Χ2160) 이하, 특히 FHD(1920Χ1080)이하의 저해상도일 때, 인공지능 모델을 이용하여 이를 4K 이상의 해상도를 갖도록 변환하는 기능을 제공할 수 있다.

이를 위해, 업스케일링부(120)는 제1 학습 모델에 5만개 이상의 제1 샘플 영상과 제2 샘플 영상을 각각 입력하여 학습을 수행하는 스케일 학습 기능(122), 제1 학습 모델을 이용하여 고해상도 영상과 저해상도 영상간의 유사성을 계산하는 유사성 계산 기능(124) 및, 전체 영상을 입력받아, 유사성을 반영하여 따라 블러, 다운 샘플링 및 노이즈 적용효과 중, 하나 이상을 적용하여 전체 영상의 해상도를 업스케일링하는 업스케일링 기능(126)을 포함할 수 있다.

스케일 학습 기능(122)은 스케일링을 위한 학습 모델을 15만개의 샘플 영상 중, 5만개 이상의 고해상도(4K 이상)의 제1 샘플 영상과 저해상도(FHD 이하)의 제2 샘플 영상을 기준으로 나누어 학습을 수행할 수 있다.

유사성 계산 기능(124)은 학습된 인공지능 모델을 이용하여 고해상도 및 저해상도 영상간에 유사성을 도출할 수 있다. 전술한 학습 모델은 해상도가 서로 다르나 동일한 내용의 영상 비교 학습을 통해 두 영상간의 유사성을 계산할 수 있으며, 그 유사성을 저해상도의 영상에 적용하면, 고해상도의 영상을 도출할 수 있게 된다.

업스케일링 기능(126)은 학습이 완료된 학습 모델로부터 도출된 유사성을 이용하여, 전체 영상에 대한 업스케일링(Upscaling) 절차를 수행할 수 있다. 고해상도 영상에 블러(blur), 노이즈(noise) 및 다운 샘플링(down sampling) 등의 영상 처리 기법을 적용하면, 동일 영상에 대한 저해상도 영상을 도출할 수 있으며, 본 발명의 실시예에 따른 업스케일링 기능(126)은 상기의 유사성 계산 결과에 기초하여 전체 영상에 대한 전술한 영상 처리 기법의 반전 처리를 통해 고해상도의 전체 영상으로 변환할 수 있다.

객체 생성부(130)는, 학습 모델을 이용하여 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환할 수 있다. 영상 콘텐츠에는 다양한 배경, 인물 및 사물 등이 등장할 수 있고, 콘텐츠 제작자는 자신이 제작하고자 하는 영상 콘텐츠에 등장할 객체를 의도한 스타일에 대하여 이질감이 최소화된 형태로 변환하여 각 장면에 등장시킬 필요가 있으며, 이에 객체 생성부(130)는 인공지능 학습 모델을 통해 전체 영상 또는 전체 영상내 어느 하나의 객체를 의도한 특정 분위기로 변환할 수 있다.

이를 위해, 객체 생성부(130)는 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 다수의 학습 영상을 제2 학습 모델에 입력하여 학습을 수행하는 스타일 학습 기능(131), 제2 학습 모델을 이용하여 DPH(Deep Painterly Harmonization) 기법을 통해 상기 영상 콘텐츠에 등장시키고자 하는 객체를 포함하는 전체 영상의 스타일을 변환하는 스타일 변환 기능(133) 및, 변환 이미지에서 배경 영역을 제거하여 변환된 객체를 추출하는 객체 추출 기능(135)을 포함할 수 있다.

스타일 학습 기능(131)은 시스템 운영자에 의한 업스케일링 절차에서 이용한 학습 모델이 아닌, 객체 추출을 위한 학습 모델이 준비됨에 따라, 제작자가 의도한 스타일의 학습 영상을 다수개 입력받아 영상 스타일에 대한 학습을 수행할 수 있다.

스타일 변환 기능(133)은 학습이 완료된 학습 모델을 통해, 제작자가 준비한 변환하고자 하는 객체를 포함하는 전체 영상에 대하여 DPH 기법을 통해 변환 이미지의 스타일을 변환할 수 있다.

객체 추출 기능(135)은 전체 영상으로부터 객체에 해당하는 영역을 제외한 나머지 배경 영역을 제거하여 객체만을 남겨둠으로써, 제작자가 의도한 객체를 추출할 수 있다. 이때, 객체 생성부(130)는 추출된 객체에 대하여 범용의 RAW 형식의 파일로 저장함으로써 다양한 포맷의 영상에 객체를 적용할 수 있도록 한다.

이하, 도면을 참조하여 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템을 이용한 영상 처리 방법을 구체적으로 설명한다.

도 2 및 도 3은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 전체 영상을 스티칭하는 방법을 모식화한 도면이다.

도 2 및 도 3을 참조하면, 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템은, 영상 콘텐츠 제작을 위한 고가의 전용 카메라 장치를 이용하는 것이 아닌, 개인 누구나가 소지하고 있는 스마트폰 등의 모바일 단말(10)을 통해 콘텐츠 제작을 위한 영상 소스를 획득할 수 있다.

본 발명에서, 영상 소스는 다양한 형태의 피사체를 대상으로 할 수 있다. 이러한 피사체에는, 사물, 사람 및 자연배경 뿐만 아니라, 대면적의 그림, 사진 등도 해당될 수 있으며, 제작자는 모바일 단말(10)을 조작하여 피사체를 촬영할 수 있다.

이때, 피사체가 대면적의 그림 또는 디스플레이를 통해 표시되는 이미지 일 경우, 모바일 단말(10)은 대면적의 전체 이미지(img1)의 모든 영역을 광각으로 한번에 촬영하는 것이 아닌, 전체 이미지(img1)에 대하여 일 방향을 향해 부분 영역(img2)을 촬영하고, 이어서 부분 영역(img2)의 우 또는 좌 방향으로 스캔하듯이 이동하여 파노라마 방식으로 연속촬영을 통해 복수의 영상 소스를 획득할 수 있다.

이러한 방식으로 촬영된 복수의 영상 소스는 유선 또는 무선 방식으로 본 발명의 영상 콘텐츠 제작 시스템(100)에 입력될 수 있다.

이후, 시스템에 입력된 복수의 영상 소스는 스티칭 기법을 통해 하나의 전체 영상으로 변환될 수 있다.

시스템은 부분 영상인 복수의 영상 소스에서 공통되는 영역 및 라인 분석을 통해 공통 영역을 식별하고, 평면상에 각 공통 영역을 20 % ~ 30 % 내외로 중첩 배치하여(a) 하나의 전체 영상을 완성할 수 있다(b).

도 4는 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 영상을 업스케일링하는 방법을 모식화하는 도면이다.

도 4를 참조하면, 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템은, FHD 이하의 저화질 영상에 대한 업스케일링을 통해 고화질로 변환할 수 있다.

이는, 4K 이상의 고해상도 영상에 블러(blur), 노이즈(noise) 및 다운 샘플링(down sampling) 등의 영상 처리 기법을 적용하면, FHD 이하의 저해상도 영상을 도출할 수 있고, 그 고해상도 영상 및 저해상도 영상간의 유사성을 이용하여 저해상도의 전체 영상을 고해상도로 변환하는 방식이다.

이를 위해, 시스템은 스케일링을 위한 학습 모델을 15만개의 샘플 영상 중, 5만개 이상의 고해상도의 제1 샘플 영상과 저해상도의 제2 샘플 영상을 기준으로 나누어 학습을 수행하여 유사성을 도출하고, 상기의 유사성 계산 결과에 기초하여 전체 영상을 대한 블러(blur), 노이즈(noise) 및 다운 샘플링(down sampling)의 반전 처리를 통해 고해상도로 변환하게 된다.

도 5는 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 시스템이 영상 콘텐츠에 등장하는 객체를 생성하는 방법을 모식화한 도면이다.

도 5를 참조하면, 본 발명의 실시예에 따른 시스템은, 제작자가 영상 콘텐츠에 등장할 객체를 등장할 객체를 의도한 스타일을 갖는 객체로 변환하여 제공할 수 있다.

이를 위해, 본 발명의 실시예에 따른 시스템은, 데이터 베이스(a)로부터 영상 콘텐츠의 스타일과 유사한 학습 이미지를 읽어드려 인공지능 기반 학습 모델에 입력하여 딥 러닝(deep-learinig)을 수행하고(b), 전체 영상으로부터 변환하고자 하는 대상인 객체(obj)에 대하여, 그 객체에 대응하는 영역을 지정하고(s1), 지정된 영역을 전체 영상에 매칭하여 객체를 적용하고(s2), 적용된 객체에 학습 모델에 기반한 DPH 기법을 적용하여 스타일을 변환한다(s3).

이후, 스타일이 변환된 영상에서 객체를 제외한 배경 영역을 제거하고 RAW 파일로 저장함으로써, 의도한 객체를 생성하게 된다(d).

이하, 전술한 구조에 따른 인공지능 기반 영상 콘텐츠 제작 시스템을 이용하여 영상을 제작하는 방법을 상세히 설명한다.

도 6은 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 방법을 나타낸 도면이다. 이하의 단계에서 각 단계별 실행주체는 별도의 기재가 없는 한 본 발명의 시스템 및 그 구성부가 된다.

도 6을 참조하면, 본 발명의 실시예에 따른 인공지능 기반 영상 콘텐츠 제작 방법은, 모바일 단말로부터, 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영된 복수의 부분 영상을 입력받는 단계(S100), 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 단계(S110), 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 단계(S120) 및, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 통해 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 단계(S130)를 포함할 수 있다.

상세하게는, 모바일 단말로부터, 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영된 복수의 부분 영상을 입력받는 단계(S100)에서는, 본 발명의 시스템을 통해 영상 콘텐츠를 제작하고자 하는 개인 등의 제작자가 자신이 소지한 모바일 단말을 통해 콘텐츠화하고자하는 피사체를 파노라마 방식으로 촬영하여 피사체 전체를 나누어 촬영한 복수의 부분 영상을 획득하고, 이를 시스템에 입력하게 된다.

다음으로, 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 단계(S110)에서는, 시스템이 피사체에 대한 부분 영상인 복수의 영상 소스의 화소 및 라인을 분석하여 동일 영역을 식별하고, 동일 영역의 면적이 일정 부분 겹치도록 한 평면상에 매칭함으로써 하나의 전체 영상을 생성하게 된다.

다음으로, 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 단계(S120)에서는, 시스템이 준비된 학습 모델을 통해 동일 내용의 고해상도 및 저해상도 영상을 학습하여 해상도 차이에 따른 유사성을 산출하고, S110 단계에서 생성된 전체 영상을 업스케일링하여 고해상도의 전체 영상을 생성하게 된다.

그리고, 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 통해 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 단계(S130)에서는, 제작자가 의도한 영상 콘텐츠의 스타일과 유사한 다수의 학습 이미지를 이용하여 인공지능 기반 학습 모델을 학습시키고, 이를 이용하여 전체 영상 콘텐츠에 등장시키고자 하는 객체의 스타일을 변환하고 객체를 추출하게 된다.

이후, 도시되어 있지는 않지만, 제작자는 시스템을 활용하여 추출된 객체 이미지에 대하여 모션작업, 음향작업 및 콘텐츠 품질 확인 등의 절차를 거쳐 제작자만의 영상 콘텐츠를 제작할 수 있다.

상기한 설명에 많은 사항이 구체적으로 기재되어 있으나 이것은 발명의 범위를 한정하는 것이라기보다 바람직한 실시예의 예시로서 해석되어야 한다. 따라서, 발명은 설명된 실시예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위에 균등한 것에 의하여 정하여져야 한다.

100 : 인공지능 기반 영상 콘텐츠 제작 시스템
110 : 스티칭부 120 : 업스케일링부
130 : 객체 생성부

Claims

복수의 영상 소스 - 상기 복수의 영상 소스는 모바일 단말이 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영한 복수의 부분 영상을 포함함. - 로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 스티칭부;
동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 포함하고, 상기 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 업스케일링부; 및
영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 포함하고, 상기 제2 학습 모델을 통해 상기 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 객체 생성부를 포함하고,
상기 스티칭부는,
각 부분 영상을 이루는 화소의 20 % 내지 30 %가 타 부분 영상과 공통되는 공통 영역을 식별하는 식별 기능;
구현하고자 하는 전체 영상에 대응하는 하나의 평면상에, 식별된 공통 영역이 중첩되도록 부분 영상을 매칭하여 하나의 전체 영상을 생성하는 매칭 기능;
상기 전체 영상 내, 일부 영역이 중첩되도록 매칭된 둘 이상의 부분 영상의 중첩 부분에서 발생하는 화소간 어긋남을 매칭된 두 화소간 평균값으로 치환하는 영상 평단화 기능; 및
결합된 영상의 각 부분 영상에 대하여 색감차를 보정하는 색상 통합 기능을 포함하는 인공지능 기반 영상 콘텐츠 제작 시스템.
삭제
삭제
제 1 항에 있어서,
상기 제1 및 제2 샘플 영상은, 동일 영상에 대하여 각각 해상도가 3840Χ2160 및 1920Χ1080인 영상이고,
상기 업스케일링부는,
상기 제1 학습 모델에 5만개 이상의 제1 샘플 영상과 제2 샘플 영상을 각각 입력하여 학습을 수행하는 스케일 학습 기능;
상기 제1 학습 모델을 이용하여 고해상도 영상과 저해상도 영상간의 유사성을 계산하는 유사성 계산 기능; 및
상기 전체 영상을 입력받아, 상기 유사성을 반영하여 따라 블러, 다운 샘플링 및 노이즈 적용효과 중, 하나 이상을 적용하여 상기 전체 영상의 해상도를 업스케일링하는 업스케일링 기능
을 포함하는 인공지능 기반 영상 콘텐츠 제작 시스템.
제 1 항에 있어서,
상기 객체 생성부는,
영상 콘텐츠에 반영하고자 하는 스타일과 유사한 다수의 학습 영상을 제2 학습 모델에 입력하여 학습을 수행하는 스타일 학습 기능;
상기 제2 학습 모델을 이용하여 DPH(Deep Painterly Harmonization) 기법을 통해, 상기 전체 영상에서 영상 콘텐츠에 등장시키고자 하는 객체를 포함하는 변환 이미지의 스타일을 변환하는 스타일 변환 기능; 및
상기 변환 이미지에서 배경 영역을 제거하여 변환된 객체를 추출하는 객체 추출 기능
을 포함하는 인공지능 기반 영상 콘텐츠 제작 시스템.
제 5 항에 있어서,
상기 변환된 객체는, RAW 형식의 파일인 것인, 인공지능 기반 영상 콘텐츠 제작 시스템.
공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 스티칭부, 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 업스케일링부 및, 제2 학습 모델을 통해 상기 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 객체 생성부를 포함하는 시스템에 의한 인공지능 기반 영상 콘텐츠 제작 방법으로서,
상기 시스템이 모바일 단말로부터, 각각 피사체의 전 영역을 복수의 부분 영역으로 구획하고, 파노라마 기능을 통해 어느 하나의 부분 영역부터 나머지 부분 영역까지 순차적으로 진행하여 촬영된 복수의 부분 영상을 입력받는 단계;
상기 스티칭부가 상기 복수의 영상 소스로부터 공통 영역 화소 및 라인을 분석하여 공통 영역의 일부를 중첩시켜 하나의 전체 영상을 생성하는 단계;
상기 업스케일링부가 동일 피사체를 대상으로 하는, 서로 다른 해상도를 갖는 다수의 제1 및 제2 샘플 영상을 학습하여 두 영상간 유사성을 산출하는 제1 학습 모델을 이용하여 상기 전체 영상의 해상도를 업스케일링하는 단계; 및
상기 객체 생성부가 영상 콘텐츠에 반영하고자 하는 스타일과 유사한 복수의 학습 이미지를 이용하여 학습된 제2 학습 모델을 통해 상기 전체 영상으로부터 선정된 영상 콘텐츠에 등장할 객체를 의도한 스타일을 갖는 객체로 변환하는 단계를 포함하고,
상기 스티칭부는,
각 부분 영상을 이루는 화소의 20 % 내지 30 %가 타 부분 영상과 공통되는 공통 영역을 식별하는 식별 기능;
구현하고자 하는 전체 영상에 대응하는 하나의 평면상에, 식별된 공통 영역이 중첩되도록 부분 영상을 매칭하여 하나의 전체 영상을 생성하는 매칭 기능;
상기 전체 영상 내, 일부 영역이 중첩되도록 매칭된 둘 이상의 부분 영상의 중첩 부분에서 발생하는 화소간 어긋남을 매칭된 두 화소간 평균값으로 치환하는 영상 평단화 기능; 및
결합된 영상의 각 부분 영상에 대하여 색감차를 보정하는 색상 통합 기능
을 포함하는 인공지능 기반 영상 콘텐츠 제작 방법.