KR102593135B1 - 딥러닝 기술 기반 3차원 공간 모델링 및 시점 합성을 통해 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법과 이를 위한 장치 - Google Patents

딥러닝 기술 기반 3차원 공간 모델링 및 시점 합성을 통해 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법과 이를 위한 장치 Download PDF

Info

Publication number
KR102593135B1
KR102593135B1 KR1020230040165A KR20230040165A KR102593135B1 KR 102593135 B1 KR102593135 B1 KR 102593135B1 KR 1020230040165 A KR1020230040165 A KR 1020230040165A KR 20230040165 A KR20230040165 A KR 20230040165A KR 102593135 B1 KR102593135 B1 KR 102593135B1
Authority
KR
South Korea
Prior art keywords
shooting
models
model
video data
information
Prior art date
Application number
KR1020230040165A
Other languages
English (en)
Inventor
김현우
김시현
이상혁
김주연
Original Assignee
고려대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교산학협력단 filed Critical 고려대학교산학협력단
Application granted granted Critical
Publication of KR102593135B1 publication Critical patent/KR102593135B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

본 발명의 일 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법은 (a) 하나 이상의 촬영 장비로부터 하나 이상의 동영상 데이터를 수신하고, 이를 이용하여 상기 수신한 동영상 데이터가 나타내고 있는 오브젝트(Object)를 임의의 시점에서 바라볼 수 있는 하나 이상의 3D 모델을 생성하는 제1 단계, (b) 상기 생성한 3D 모델로부터 고수준 특징자(High-level Feature) 및 탐지 정보를 추출하는 제2 단계 및 (c) 하나 이상의 촬영 관련 정보를 수신하고, 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 적용된 장면(Scene)을 상기 3D 모델로부터 추출하여 고품질 동영상을 생성하는 제3 단계를 포함한다.

Description

딥러닝 기술 기반 3차원 공간 모델링 및 시점 합성을 통해 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법과 이를 위한 장치{METHOD FOR GENERATING HIGH QUALITY VIDEO WITH PROFESSIONAL FILMING TECHNIQUES THROUGH DEEP LEARNING TECHNOLOGY BASED 3D SPACE MODELING AND POINT-OF-VIEW SYNTHESIS AND APPARATUS FOR SAME}
본 발명은 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법 및 이를 위한 장치에 관한 것이다. 보다 자세하게는 가공되지 않은 동영상으로부터 모델링 된 공간에서의 촬영 기법을 적용해 고품질 동영상을 생성할 수 있는 방법 및 이를 위한 장치에 관한 것이다.
영상과 관련된 다양한 콘텐츠가 기하급수적으로 쏟아져나오는 현 시대 속에서, 보다 고품질의 동영상을 촬영하고자 하는 수요자들의 니즈는 나날이 증가하고 있으며, 관련된 촬영 기술 역시 활발하게 개발되고 있다.
종래에는 고품질 동영상을 제작하기 위해 전문적인 촬영 기술을 보유한 촬영 감독이나 촬영 기사가 고가의 장비를 가지고 현장에 배치되어 스스로의 전문 지식을 활용해 촬영 대상인 오브젝트에 대한 촬영을 진행하였으나, 이들에 대한 인건비가 나날이 증가하고 있으며, 한 장면을 제작하기 위해 복수 개의 카메라로 동시에 촬영을 진행하는 것이 보편적인 촬영 방식이 된 현재의 촬영 현장 내에서 이들 전문가들을 여러명 두는 것은 콘텐츠의 제작비 증가에 치명적인 영향을 준다는 문제점이 있다.
이러한 문제점을 해결하기 위해 최근에는 인공지능 및 딥러닝(Deep Learning) 알고리즘을 이용하여 고품질의 동영상을 생성하고자 하는 시도가 계속되고 있으나, 대부분 영상 안정화(Stabilization)에 국한되어 있으며, 전문 촬영 인력이 보유한 전문적인 촬영 기술과 관련된 다양한 촬영 기법은 적용할 수 없다는 문제점이 있다.
본 발명은 이러한 종래 기술의 문제점들을 반영하여 전문 촬영 인력이나 고가의 장비 없이도 전문적인 촬영 기법이 적용된 고품질의 동영상을 신속하고 경제적으로 생성할 수 있는 새롭고 진보된 기술에 관한 것이다.
대한민국 공개특허공보 제 10-2020-0000104호(2020.01.02)
본 발명이 해결하고자 하는 기술적 과제는 종래 고품질 동영상 제작을 위해 높은 인건비를 부담해야 하는 전문 촬영 인력을 고용하지 않고, 장치만을 위한 비교적 적은 비용만으로 전문 촬영 기법이 적용된 고품질 동영상을 제작할 수 있는 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법 및 이를 위한 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 고가의 촬영 장비 없이도 고품질 동영상을 제작할 수 있는 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법 및 이를 위한 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 전문가들을 완벽하게 대체하여 이들에 대한 인건비를 절약할 수 있게 됨으로써 소규모 제작자들 역시 고품질 동영상을 부담없이 제작할 수 있도록 이바지하는 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법 및 이를 위한 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법은 (a) 하나 이상의 촬영 장비로부터 하나 이상의 동영상 데이터를 수신하고, 이를 이용하여 상기 수신한 동영상 데이터가 나타내고 있는 오브젝트(Object)를 임의의 시점에서 바라볼 수 있는 하나 이상의 3D 모델을 생성하는 제1 단계, (b) 상기 생성한 3D 모델로부터 고수준 특징자(High-level Feature) 및 탐지 정보를 추출하는 제2 단계 및 (c) 하나 이상의 촬영 관련 정보를 수신하고, 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 적용된 장면(Scene)을 상기 3D 모델로부터 추출하여 고품질 동영상을 생성하는 제3 단계를 포함한다.
일 실시 예에 따르면, 상기 제1 단계는, (a-1) 상기 수신한 하나 이상의 동영상 데이터에 대한 전처리를 수행하는 제1-1 단계 및 (a-2) 상기 전처리를 수행한 하나 이상의 동영상 데이터를 학습이 완료된 암시적 신경망(Implicit Neural Network) 기반의 인공지능 모델에 입력하여 하나 이상의 3D 모델을 출력하는 제1-2 단계 중 어느 하나 이상을 포함할 수 있다.
일 실시 예에 따르면, 상기 (a-1) 단계에서의 전처리는, 상기 동영상 데이터의 크기 조절, 해상도 조절, 프레임 샘플링 및 소정 크기 이상의 동영상 데이터의 경우 비디오 분할(Video Segmentation) 기법을 활용하여 일정 단위 길이의 청크(Chunk) 영상들로의 가공 중 어느 하나 이상을 포함할 수 있다.
일 실시 예에 따르면, 상기 (a-2) 단계에서의 학습은, 상기 전처리를 수행한 하나 이상의 동영상 데이터에서 특정 시간과 시점에 해당하는 프레임 단위 표현자(Representation)의 학습 및 프레임 내 정적(Static), 동적(Dynamic), 신규(New) 오브젝트에 대한 성분 분리(Decomposition) 학습 중 어느 하나 이상일 수 있다.
일 실시 예에 따르면, 상기 (a-2) 단계에서 출력한 3D 모델이 복수 개라면, 상기 (a-2) 단계 이후에, (a-3) 상기 출력한 복수 개의 3D 모델을 정규화하여 최종적인 3D 모델을 복수 개 생성하는 제1-3 단계를 더 포함하며, 상기 (a-3) 단계에서의 정규화는, 상기 복수 개의 3D 모델 사이의 관계 분석을 통해 겹치는 부분이 많은 3D 모델 간의 유사도는 가깝게, 겹치는 부분이 적은 3D 모델 간의 유사도는 멀게하는 손실함수를 이용하여 이루어질 수 있다.
일 실시 예에 따르면, 상기 제2 단계는, (b-1) 상기 생성한 하나 이상의 3D 모델로부터 복수의 시점 및 시간대에서의 3차원 장면을 추출하는 제2-1 단계, (b-2) 상기 추출한 3차원 장면을 합성곱 신경망(Convolution Neural Network) 기반 인공지능 모델 또는 트랜스포머(Transformer) 기반 인공지능 모델에 입력하여 각 3차원 장면의 특징인 고수준 특징자를 추출하는 제2-2 단계 및 (b-3) 상기 추출한 고수준 특징자를 이용하여 상기 추출한 3차원 장면의 이해 및 탐지를 진행하고 상기 탐지 정보를 추출하는 제2-3 단계 중 어느 하나 이상을 포함할 수 있다.
일 실시 예에 따르면, 상기 상기 (b-3) 단계에서의 3차원 장면의 이해 및 탐지는, 오브젝트 탐지 및 사람-오브젝트 간 상호 작용 탐지(Human-Object Interaction Detection) 중 어느 하나 이상을 포함할 수 있다.
일 실시 예에 따르면, 상기 탐지 정보는, 상기 오브젝트 탐지의 진행에 따른 상기 3차원 장면 내에서 오브젝트가 있을 만한 영역에 대한 식별 정보, 해당 오브젝트의 종류에 대한 분류 정보, 상기 사람-오브젝트 간 상호 작용 탐지의 진행에 따른 상기 3차원 장면 내에서 사람과 오브젝트의 탐지 정보 및 상기 탐지한 사람과 오브젝트 사이에서 이루어지는 상호 작용의 종류에 대한 분류 정보 중 어느 하나 이상을 포함할 수 있다.
일 실시 예에 따르면, 상기 제3 단계는, (c-1) 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 초점 거리(Focal Length), 주점(Principal Point) 및 뒤틀림 계수(Skew Coefficient) 중 어느 하나 이상에 대한 내적 파라미터(Intrinsic Parameter)를 산출하는 제3-1 단계, (c-2) 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 회전 및 평행이동 중 어느 하나 이상에 대한 외적 파라미터(Extrinsic Parameter)를 산출하는 제3-2 단계 및 (c-3) 상기 산출한 내적 파라미터 및 외적 파라미터와 상기 수신한 촬영 관련 정보를 이용하여 상기 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 반영된 장면을 상기 3D 모델로부터 추출하는 제3-3 단계 중 어느 하나 이상을 포함할 수 있다.
일 실시 예에 따르면, 상기 (c-3) 단계 이후에, (c-4) 상기 3D 모델로부터 추출한 장면을 3차원 렌더링하여 고품질 동영상을 생성하는 제3-4 단계를 더 포함할 수 있다.
일 실시 예에 따르면, 상기 촬영 관련 정보는, 촬영 시점에 대한 정보, 촬영한 카메라 종류에 대한 정보 및 오브젝트의 종류에 대한 정보 중 어느 하나 이상을 포함하는 촬영 정보와 줌(Zoom), 팬(Pan), 틸트(Tilt) 및 달리(Dolly) 중 어느 하나 이상을 포함하는 전문 카메라 촬영 기법 정보 중 어느 하나 이상을 포함할 수 있다.
상기 기술적 과제를 달성하기 위한 본 발명의 또 다른 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치는 하나 이상의 프로세서; 하나 이상의 프로세서, 네트워크 인터페이스, 상기 프로세서에 의해 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리 및 대용량 네트워크 데이터 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은 상기 하나 이상의 프로세서에 의해, (A) 하나 이상의 촬영 장비로부터 하나 이상의 동영상 데이터를 수신하고, 이를 이용하여 상기 수신한 동영상 데이터가 나타내고 있는 오브젝트(Object)를 임의의 시점에서 바라볼 수 있는 하나 이상의 3D 모델을 생성하는 제1 오퍼레이션, (B) 상기 생성한 3D 모델로부터 고수준 특징자(High-level Feature) 및 탐지 정보를 추출하는 제2 오퍼레이션 및 (C) 하나 이상의 촬영 관련 정보를 수신하고, 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 적용된 장면(Scene)을 상기 3D 모델로부터 추출하여 고품질 동영상을 생성하는 제3 오퍼레이션을 실행한다.
상기 기술적 과제를 달성하기 위한 본 발명의 또 다른 실시 예에 따른 매체에 저장된 컴퓨터 프로그램은 컴퓨팅 장치와 결합하여, (AA) 하나 이상의 촬영 장비로부터 하나 이상의 동영상 데이터를 수신하고, 이를 이용하여 상기 수신한 동영상 데이터가 나타내고 있는 오브젝트(Object)를 임의의 시점에서 바라볼 수 있는 하나 이상의 3D 모델을 생성하는 제1 단계, (BB) 상기 생성한 3D 모델로부터 고수준 특징자(High-level Feature) 및 탐지 정보를 추출하는 제2 단계 및 (CC) 하나 이상의 촬영 관련 정보를 수신하고, 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 적용된 장면(Scene)을 상기 3D 모델로부터 추출하여 고품질 동영상을 생성하는 제3 단계를 실행한다.
상기와 같은 본 발명에 따르면, 전문적인 촬영 기술을 보유하지 않은 일반 사용자가 보편적인 촬영 장비를 가지고 촬영한 동영상 데이터를 이용하여 3D 모델을 생성하고, 생성한 3D 모델을 분석한 후, 전문 촬영 기법에 관한 정보를 반영해 고품질 동영상을 자동으로 생성하는바, 종래 고품질 동영상 제작을 위해 높은 인건비를 부담해야 하는 전문 촬영 인력을 고용하지 않고, 장치만을 위한 비교적 적은 비용만으로 전문 촬영 기법이 적용된 고품질 동영상을 제작할 수 있다는 효과가 있다.
또한, 장치만을 위한 비교적 적은 비용만 부담하면 충분하며, 입력 데이터로 이용하는 동영상 데이터는 중/저가의 촬영 장비로 생성한 것이라도 무방한바, 고가의 촬영 장비 없이도 고품질 동영상을 제작할 수 있다는 효과가 있다.
또한, 입력 데이터인 동영상 데이터에 대하여 어느 방향에서도 바라볼 수 있는 3D 모델을 생성하기에 새로운 위치나 각도에서 바라보는 장면에 대한 고품질 동영상을 쉽게 제작할 수 있다는 효과가 있다.
또한, 전문가들을 완벽하게 대체하여 이들에 대한 인건비를 절약할 수 있게 됨으로써 소규모 제작자들 역시 고품질 동영상을 부담없이 제작할 수 있도록 이바지할 수 있다는 효과가 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
도 1은 본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치가 포함하는 전체 구성을 예시적으로 도시한 도면이다.
도 2는 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법의 대표적인 단계를 나타낸 순서도이다.
도 3는 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 있어서, 3D 모델을 생성하는 제1 단계를 구체화한 순서도이다.
도 4는 신경 방사망을 통해 드럼을 촬영한 동영상 데이터로부터 드럼에 대한 3D 모델을 생성하여 다양한 시점에서 바라보는 모습을 예시적으로 도시한 도면이다.
도 5는 동영상 데이터로부터 예시적으로 생성한 3D 모델을 특정 시점에서 바라본 모습을 예시적으로 도시한 도면이다.
도 6은 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 있어서, 장면을 이해하는 제2 단계를 구체화한 순서도이다.
도 7은 도 5에 예시적으로 도시한 3D 모델로부터 복수의 시점 및 시간대에서 추출한 3차원 장면들을 예시적으로 도시한 도면이다.
도 8은 하나의 3차원 장면을 예시적으로 도시한 도면이다.
도 9는 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 있어서, 고품질 동영상을 생성하는 제3 단계를 구체화한 순서도이다.
도 10은 본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치를 도 1의 경우와 상이하게 기능적인 구성을 포함하는 형태로 도시한 도면이다.
본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하의 상세한 설명에 의해 보다 명확하게 이해될 것이다. 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다.
본 명세서에서 개시되는 실시 예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시 예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 본 발명의 상세한 설명에 기재된 임의의 실시 예들은 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시 예들로 한정되는 것을 의도하지 않는다.
도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한, 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.
또한, 어떤 구성요소들을 포함한다는 표현은 "개방형"의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.
나아가 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급될 때에는, 그 다른 구성요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 한다.
이하에서는 도면들을 참조하여 본 발명의 세부적인 실시 예들에 대해 살펴보도록 한다.
도 1은 본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치(100)가 포함하는 전체 구성을 예시적으로 도시한 도면이다.
그러나 이는 본 발명의 목적을 달성하기 위한 바람직한 실시 예일 뿐이며, 필요에 따라 일부 구성이 추가되거나 삭제될 수 있고, 어느 한 구성이 수행하는 역할을 다른 구성이 함께 수행할 수도 있음은 물론이다.
본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치(100)는 프로세서(10), 네트워크 인터페이스(20), 메모리(30), 스토리지(40) 및 이들을 연결하는 데이터 버스(50)를 포함할 수 있으며, 기타 본 발명의 목적을 달성함에 있어 요구되는 부가적인 구성들을 더 포함할 수 있음은 물론이라 할 것이다.
프로세서(10)는 각 구성의 전반적인 동작을 제어한다. 프로세서(10)는 CPU(Central Processing Unit), MPU(Micro Processer Unit), MCU(Micro Controller Unit) 또는 본 발명이 속하는 기술 분야에서 널리 알려져 있는 형태의 프로세서 중 어느 하나일 수 있다.
아울러, 프로세서(10)는 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법을 수행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있으며, 다양한 네트워크 모델 기반의 인공지능 모델이 구현된 인공지능 프로세서일 수 있다.
네트워크 인터페이스(20)는 본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치(100)의 유무선 인터넷 통신을 지원하며, 그 밖의 공지의 통신 방식을 지원할 수도 있다. 따라서 네트워크 인터페이스(20)는 그에 따른 통신 모듈을 포함하여 구성될 수 있다.
메모리(30)는 각종 정보, 명령 및/또는 정보를 저장하며, 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법을 수행하기 위해 스토리지(40)로부터 하나 이상의 컴퓨터 프로그램(41)을 로드할 수 있다. 도 1에서는 메모리(30)의 하나로 RAM을 도시하였으나 이와 더불어 다양한 저장 매체를 메모리(30)로 이용할 수 있음은 물론이다.
스토리지(40)는 하나 이상의 컴퓨터 프로그램(41) 및 대용량 네트워크 정보(42)를 비임시적으로 저장할 수 있다. 이러한 스토리지(40)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 널리 알려져 있는 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체 중 어느 하나일 수 있다.
컴퓨터 프로그램(41)은 메모리(30)에 로드되어, 하나 이상의 프로세서(10)에 의해, (A) 하나 이상의 촬영 장비로부터 하나 이상의 동영상 데이터를 수신하고, 이를 이용하여 상기 수신한 동영상 데이터가 나타내고 있는 오브젝트(Object)를 임의의 시점에서 바라볼 수 있는 하나 이상의 3D 모델을 생성하는 제1 오퍼레이션, (B) 상기 생성한 3D 모델로부터 고수준 특징자(High-level Feature) 및 탐지 정보를 추출하는 제2 오퍼레이션 및 (C) 하나 이상의 촬영 관련 정보를 수신하고, 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 적용된 장면(Scene)을 상기 3D 모델로부터 추출하여 고품질 동영상을 생성하는 제3 오퍼레이션을 실행할 수 있다.
이상 간단하게 언급한 컴퓨터 프로그램(41)이 수행하는 오퍼레이션은 컴퓨터 프로그램(41)의 일 기능으로 볼 수 있으며, 보다 자세한 설명은 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 대한 설명에서 후술하도록 한다.
데이터 버스(50)는 이상 설명한 프로세서(10), 네트워크 인터페이스(20), 메모리(30) 및 스토리지(40) 사이의 명령 및/또는 정보의 이동 경로가 된다.
이상 설명한 본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치(100)는 독립된 디바이스의 형태, 예를 들어 전자 기기나 서버(클라우드 포함)의 형태일 수 있으며, 후자의 경우 전용 애플리케이션의 형태로 사용자 단말에 다운로드되어 설치될 수 있을 것이다.
아울러, 여기서 전자 기기는 스마트폰, 태블릿 PC, 노트북 PC, PDA, PMP 등과 같이 휴대가 용이한 포터블 기기 뿐만 아니라 한 장소에 고정 설치되어 사용하는 데스크톱 PC 등이라도 무방하며, 네트워크 기능만 보유하고 있다면 전자 기기는 어떠한 것이라도 무방하다 할 것이다.
이하, 본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치(100)가 독립된 디바이스 형태인 서버임을 전제로 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 대하여 도 2내지 도 10을 참조하여 설명하도록 한다.
도 2는 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법의 대표적인 단계를 나타낸 순서도이다.
그러나 이는 본 발명의 목적을 달성함에 있어서 바람직한 실시 예일 뿐이며, 필요에 따라 일부 단계가 추가 또는 삭제될 수 있음은 물론이고, 어느 한 단계가 다른 단계에 포함되어 수행될 수도 있다.
한편, 각 단계는 본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치(100)를 통해 이루어지는 것을 전제로 하며, 설명의 편의를 위해 "장치(100)"로 명명하도록 함을 미리 밝혀두는 바이다.
또한, 이하의 설명에서 사용할 단어인 "동영상", "영상"과 "이미지"는 사전적인 의미는 상이하나, "동영상" 또는 "영상"은 프레임 단위의 "이미지" 복수 개가 연속적으로 취합하여 이루어지는 것이기 때문에 이하의 "이미지"는 "동영상" 또는 "영상"의 특정 프레임에서의 정지 화면을 의미한다 할 것이며, 광의의 개념으로 해석하여 "동영상", "영상", "이미지"는 큰 구별없이 혼용되어 사용될 수 있다 할 것이다.
우선, 장치(100)가 하나 이상의 촬영 장비로부터 하나 이상의 동영상 데이터를 수신하고, 이를 이용하여 수신한 동영상 데이터가 나타내고 있는 오브젝트(Object)를 임의의 시점에서 바라볼 수 있는 하나 이상의 3D 모델을 생성한다(S210).
여기서 하나 이상의 촬영 장비는 카메라뿐만 아니라 촬영 기능을 보유한 디바이스라면 어떠한 것이라도 카메라가 될 수 있는바, 예를 들어, 촬영용 드론, 카메라 로봇, 팬틸트 줌 카메라, 스마트폰 등과 같이 촬영 기능을 보유한 디바이스가 모두 촬영 장비가 될 수 있으며, 촬영 장비가 복수 개인 경우 복수 개의 촬영 장비 각각이 서로 동일한 종류일 필요는 없고, 성능 역시 상이할 수도 있음은 물론이라 할 것이다.
아울러, 하나 이상의 동영상 데이터의 수신은 촬영 장비로부터 직접 수신할 수 있으나, 경우에 따라 외부 서버나 데이터베이스 등으로부터 기 저장된 동영상 데이터를 수신할 수도 있을 것인바, 송신 주체가 누구든지 간에 하나 이상의 동영상 데이터를 장치(100)가 수신하는 경우라 한다면 모두 S210 단계에 포함되는 것으로 보아야 할 것이다.
한편, 수신하는 동영상 데이터는 하나 이상이면 충분하기에 한 개의 동영상 데이터만을 이용하여 3D 모델을 생성할 수도 있으나, 복수 개의 동영상 데이터를 이용하여 생성하는 3D 모델의 품질이 보다 높기 때문에 가급적 복수 개의 동영상 데이터를 수신하는 것이 고품질 동영상 생성을 위해 바람직하다 할 것이며, 여기서 복수 개의 동영상 데이터는 동일한 촬영장 내에서, 보다 구체적으로 같은 공간 내에서 동일한 오브젝트를 촬영한 동영상 데이터로써 100% 동일하지는 않지만 전체적인 관점에서 동일한 오브젝트를 촬영했다는 것을 인식할 수 있을 정도의 동영상 데이터라 할 것이다. 예를 들어, A라는 촬영장에서 B라는 오브젝트를 촬영한 동영상 데이터와 C라는 촬영장에서 B라는 오브젝트를 촬영한 동영상 데이터는 오브젝트가 동일하기는 하지만 촬영장 자체가 상이하기에 여기서의 복수 개의 동영상 데이터에 해당할 수는 없으며, A라는 촬영장에서 B와 C라는 오브젝트를 촬영한 동영상 데이터와 A라는 촬영장에서 B와 D라는 오브젝트를 촬영한 동영상 데이터는 여기서의 복수 개의 동영상 데이터에 해당한다 할 것이다.
이와 별개로 복수 개의 동영상 데이터가 동시에 동일한 오브젝트를 촬영한 동영상이어야 하는 것, 즉 시간적인 제약 조건은 필수적인 것은 아니라 할 것이나, 가급적 동시에 촬영한 동영상 데이터를 수신함으로써 생성하고자 하는 3D 모델의 품질을 향상시키는 것이 바람직하다 할 것이다.
이와 같은 S210 단계를 제1 단계라고 하는바, 보다 구체적으로 제1 단계는 동영상 데이터가 나타내고 있는, 조금 더 쉽게 이야기하면 해당 동영상이 담고 있는 임의의 오브젝트에 대한 3D 모델을 생성하는 단계로 볼 수 있으며, 이하, 도 3을 참조하여 설명하도록 한다.
도 3은 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 있어서, 3D 모델을 생성하는 제1 단계를 구체화한 순서도이다.
그러나 이는 본 발명의 목적을 달성함에 있어서 바람직한 실시 예일 뿐이며, 필요에 따라 일부 단계가 추가 또는 삭제될 수 있음은 물론이고, 어느 한 단계가 다른 단계에 포함되어 수행될 수도 있다.
우선, 장치(100)가 하나 이상의 동영상 데이터에 대한 전처리를 수행하며(S210-1), 이를 제1-1 단계라 한다.
여기서의 전처리는 인공지능 모델에 데이터를 입력하기 전에 이루어지는 보편적인 데이터 전처리의 하나로 볼 수 있는바, 동영상 데이터의 크기 조절, 해상도 조절, 프레임 샘플링 및 소정 크기 이상의 동영상 데이터의 경우 공지된 비디오 분할(Video Segmentation) 기법을 활용하여 일정 단위 길이의 청크(Chunk) 영상들로의 가공 중 어느 하나 이상을 포함할 수 있다.
한편, 여기서 청크란 전체 동영상을 일정한 기준을 가지고 나눌 수 있는 것을 의미하는바, 예를 들어, 10분짜리 동영상에서 1분까지는 등장인물이 A, B, C이며, 1분부터 3분까지는 등장 인물이 B, D이고, 3분부터 10분까지는 등장 인물이 A, B, C, D라면, 3개의 청크 영상으로 전체 동영상을 나눌 수 있을 것이며, 이 경우 청크 영상으로 나누는 기준은 등장인물이 될 것인바, 이와 같이 청크 영상으로 나누는 기준은 하나의 예시에 해당하고 이에 반드시 한정되는 것은 아니라 할 것이다.
이후, 장치(100)가 전처리를 수행한 하나 이상의 동영상 데이터를 학습이 완료된 암시적 신경망(Implicit Neural Network) 기반의 인공지능 모델에 입력하여 하나 이상의 3D 모델을 출력하며(S210-2), 이를 제1-2 단계라 한다.
여기서 암시적 신경망 기반의 인공지능 모델이 수행하는 학습은 전처리를 수행한 하나 이상의 동영상 데이터에서 특정 시간과 시점에 해당하는 프레임 단위 표현자(Representation)의 학습 및 프레임 내 정적(Static), 동적(Dynamic), 신규(New) 오브젝트에 대한 성분 분리(Decomposition) 학습 중 어느 하나 이상일 수 있다.
보다 구체적으로, 프레임 단위 표현자의 학습은 동영상 데이터에서 각 프레임을 개별적으로 처리하여 특징(Feature)을 추출하고, 이를 이용하여 동영상 데이터를 분류, 검색 및 생성하는 등의 작업을 수행하는 머신 러닝 기술인바, 동영상 데이터를 처리하려면 모든 프레임을 하나의 시퀀스로 취급하여 처리하는 방식을 사용하는 것이 일반적이나, 이와 같은 방식은 각 프레임이 개별적으로 처리되지 않아 동영상에서 발생하는 변화나 움직임을 정확하게 인식하기 어려울 수 있으므로 프레임 단위 표현자의 학습은 각 프레임을 개별적으로 처리하여 특징을 추출하되, 프레임 단위로 추출된 특징은 각각의 프레임이 가진 시간적인 정보를 고려하며 다양한 시간 길이의 동영상 데이터에 적용할 수 있다.
한편, 성분 분리 학습은 복잡한 혼합물에서 원하는 성분을 추출하는 머신 러닝 기술인바, 복잡한 혼합물에서 성분을 추출하려면 성분이 어떠한 구성으로 혼합되어 있는지 미리 알고 있어야 하는 것이 일반적이며, 성분의 구성이 알려지지 않은 경우에는 성분 추출이 어려우나, 성분 분리 학습을 통해 구성 요소의 수 및 비율을 미리 알고 있지 않더라도 혼합물에서 성분을 추출할 수 있으며, 동영상 데이터에 적용하는 경우 동영상 내에서 배경과 같이 변하지 않은 정적 요소와 움직임 등에 의해 변화가 있는 동적 요소 그리고 기존에는 없었다가 중간에 등장하는 신규 요소 총 세 가지 요소의 분리 학습을 의미하게 되는바, 학습을 완료한 경우 동영상 데이터가 입력되었을 때 이로부터 이들 요소의 분리가 가능해질 수 있다.
이상과 같은 학습을 수행하는 인공지능 모델은 암시적 신경망 기반의 인공지능 모델, 보다 구체적으로 명시적인 함수 형태를 제공하지 않기에 암시적 신경망의 한 종류로 볼 수 있는 신경 방사망(Neural Radiance Field, NerF) 기반의 인공지능 모델일 수 있는바, 신경 방사망은 3D 공간에서 장면의 밀도와 색상 정보를 모델링하는데 사용되며, 이때 각 3D 좌표에 대한 색상 값은 방사 상수(Radiance)라는 개념을 통해 예측되는바, 색상과 함께 방향성 정보를 모델링하는데 용이하며, 장면의 입체적인 느낌과 현실감을 향상시킬 수 있다. 이와 같은 신경 방사망은 동영상 데이터가 나타내는 각각의 이미지와 해당 이미지에 대한 깊이 맵(Depth Map) 정보를 입력으로 사용하여 오브젝트의 3D 형태를 추정하는바, 이미지 및 이와 함께 레이블링된 3D 데이터셋을 가지고 학습을 진행하며, 픽셀 좌표와 방향성 정보를 입력으로 받아 색상 값을 출력하는 암시적 신경망을 우선 학습 한 후, 3D 공간 상의 특정 지점에서 나오는 빛의 양을 나타내는 방사 상수를 학습하는바, 이를 위해 Ray Tracing 알고리즘을 사용하여 각 샘플들을 이동시키며 해당 지점의 색상 값을 예측하고, 이를 실제 값과 비교하여 오차를 산출하고, 산출한 오차를 최소화하는 방향으로 학습을 진행한다. 학습이 완료되면 3D 공간 상의 임의의 위치에서 색상 값을 예측할 수 있으므로 동영상 데이터를 입력 받아 해당 동영상 데이터가 나타내고 있는 오브젝트에 대한 3D 모델을 생성할 수 있는바, 도 4에 신경 방사망을 통해 드럼을 촬영한 동영상 데이터로부터 드럼에 대한 3D 모델을 생성하여 다양한 시점에서 바라보는 모습을, 도 5에 동영상 데이터로부터 예시적으로 생성한 3D 모델을 특정 시점에서 바라본 모습을 예시적으로 도시해 놓았다. 여기서 도 5의 경우 도면 첨부로 인해 3D 모델을 특정 시점에서 바라본 2차원 이미지 형식으로 도시하였지만 그 실상은 어느 시점에서나 바라볼 수 있는 3D 모델이라 할 것이다.
한편, 제1-2 단계에서 출력한 3D 모델이 복수 개인 경우, 보다 구체적으로 촬영 장비로부터 수신한 동영상 데이터가 복수 개인 경우 또는 전처리 과정에서 하나의 동영상 데이터를 복수 개의 청크 영상들로 가공한 경우에는 제1-2 단계 이후에 출력한 복수 개의 3D 모델을 정규화하여 최종적인 3D 모델을 복수 개 생성하는 단계(S210-3)가 수행될 수 있으며, 이를 제1-3 단계라 한다.
여기서 정규화는 복수 개의 3D 모델 사이의 관계 분석을 통해 겹치는 부분이 많은 3D 모델 간의 유사도는 가깝게, 겹치는 부분이 적은 3D 모델 간의 유사도는 멀게하는 손실함수를 이용하여 이루어 질 수 있으며, 이를 통해 보다 높은 품질의 3D 모델이 생성될 수 있을 것이다.
다시 도 2에 대한 설명으로 돌아가도록 한다.
3D 모델을 생성했다면, 장치(100)가 생성한 3D 모델로부터 고수준 특징자(High-level Feature) 및 탐지 정보를 추출한다(S220).
이와 같은 S220 단계를 제2 단계라고 하는바, 보다 구체적으로 3D 모델로부터 장면을 이해하는 단계로 볼 수 있으며, 이하, 도 6을 참조하여 설명하도록 한다.
도 6은 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 있어서, 장면을 이해하는 제2 단계를 구체화한 순서도이다.
그러나 이는 본 발명의 목적을 달성함에 있어서 바람직한 실시 예일 뿐이며, 필요에 따라 일부 단계가 추가 또는 삭제될 수 있음은 물론이고, 어느 한 단계가 다른 단계에 포함되어 수행될 수도 있다.
우선, 장치(100)가 생성한 하나 이상의 3D 모델로부터 복수의 시점 및 시간대에서의 3차원 장면을 추출하며(S220-1), 이를 제2-1 단계라 한다.
여기서 추출하는 복수의 시점 및 시간대에서의 3차원 장면은 3D 모델에 따른 장면의 이해를 위한 것인바, 가급적 다양한 시점과 다양한 시간대에서의 3차원 장면을 추출하는 것이 바람직하며, 더 나아가 원본 동영상 데이터에서 주목 받지 못하거나 다른 오브젝트들로 인해 가려져 있던 오브젝트 또는 영역에 대해서까지 모두 추출하는 것이 가장 바람직하다 할 것이고, 이와 같은 3차원 장면의 추출은 그 대상이 2차원 동영상이 아니라 3D 모델이기 때문에 가능한 것이라 할 것이다.
도 7에 앞서 도 5에 예시적으로 도시한 3D 모델로부터 복수의 시점 및 시간대에서 추출한 3차원 장면들을 예시적으로 도시한바, 다양한 시점에서 바라봄으로 인해 다른 오브젝트들로 가려져 있거나(상단) 주목 받지 못했던 배경 관련 오브젝트(중간 및 하단) 등이 추출된 것을 확인할 수 있다.
이후, 장치(100)가 추출한 3차원 장면을 합성곱 신경망(Convolution Neural Network) 기반 인공지능 모델 또는 트랜스포머(Transformer) 기반 인공지능 모델에 입력하여 각 3차원 장면의 특징인 고수준 특징자를 추출하며(S220-2), 이를 제2-2 단계라 한다.
여기서 합성곱 신경망 기반 인공지능 모델은 예를 들어 ResNet일 수 있으며, 트랜스포머 기반 인공지능 모델은 예를 들어 ViT일 수 있고, 고수준 특징자는 시각적 데이터인 3차원 장면에서 의미 있는 정보를 의미하는바, 예를 들어 인식하려는 오브젝트가 사람 얼굴이라면 추출하는 고수준 특징자는 얼굴의 눈, 코, 입 등의 위치와 형태, 각도, 크기 등이 될 수 있다.
더 나아가 각 3차원 장면의 특징인 고수준 특징자의 추출은 다규모 데이터셋에서 사전 학습된 신경망(Pre-trained neural network) 모델을 통해서도 이루어질 수 있는바, 어느 모델을 사용하여도 무방하다 할 것이다.
고수준 특징자까지 추출했다면, 장치(100)가 추출한 고수준 특징자를 이용하여 추출한 3차원 장면의 이해 및 탐지를 진행하고 상기 탐지 정보를 추출하며(S220-3), 이를 제2-3 단계라 한다.
여기서 3차원 장면의 이해 및 탐지는 3차원 장면이 포함하는 오브젝트의 탐지 및 사람-오브젝트 간 상호 작용 탐지(Human-Object Interaction Detection) 중 어느 하나 이상을 포함할 수 있는바, 쉽게 이야기하면 전자인 오브젝트 탐지는 사람도 하나의 오브젝트로 볼 수 있기 때문에 종류와 무관하게 모든 피사체에 대하여 탐지하는 것으로 볼 수 있으며, 후자는 오브젝트 중 사람에 대하여 해당 사람이 다른 오브젝트와 어떠한 상호 작용을 보유하고 있는지를 탐지하는 것이다.
도 8에 하나의 3차원 장면을 예시적으로 도시한바, 해당 3차원 장면에 대하여 이해 및 탐지를 진행하면, 오브젝트 탐지에 따라 한 명의 사람, 의자, 책상, 노트북 컴퓨터, 창문 등이 탐지될 것이며, 사람-오브젝트 간 상호 작용 탐지에 따라 한 명의 사람이 의자에 앉아 노트북 컴퓨터를 닫고 있다는 상호 작용이 탐지될 것이다.
한편, 3차원 장면의 이해 및 탐지 진행에 따라 추출하는 탐지 정보는 오브젝트 탐지의 진행에 따른 3차원 장면 내에서 오브젝트가 있을 만한 영역에 대한 식별 정보(영역 제안 네트워크 RPN 이용, 바운딩 박스), 해당 오브젝트의 종류에 대한 분류 정보(오브젝트의 클래스), 사람-오브젝트 간 상호 작용 탐지의 진행에 따른 3차원 장면 내에서 사람과 오브젝트의 탐지 정보 및 탐지한 사람과 오브젝트 사이에서 이루어지는 상호 작용의 종류(상호 작용 클래스)에 대한 분류 정보 중 어느 하나 이상을 포함할 수 있으며, 이뿐만 아니라 3차원 장면의 이해 및 탐지의 진행에 따른 산출물 중, 3차원 장면의 이해에 이바지할 수 있는 정보라면 어떠한 것이라도 탐지 정보에 포함될 수 있음은 물론이라 할 것이다.
다시 도 2에 대한 설명으로 돌아가도록 한다.
탐지 정보까지 추출했다면, 장치(100)가 하나 이상의 촬영 관련 정보를 수신하고, 생성한 3D 모델과 추출한 고수준 특징자 및 탐지 정보, 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 촬영 관련 정보가 적용된 장면(Scene)을 3D 모델로부터 추출하여 고품질 동영상을 생성한다(S230).
여기서 촬영 관련 정보는 촬영 시점에 대한 정보, 촬영한 카메라 종류에 대한 정보 및 오브젝트의 종류에 대한 정보 중 어느 하나 이상을 포함하는 촬영 정보와 줌(Zoom), 팬(Pan), 틸트(Tilt) 및 달리(Dolly) 중 어느 하나 이상을 포함하는 전문 카메라 촬영 기법 정보 중 어느 하나 이상을 포함할 수 있으며, 고품질 동영상을 생성함에 있어서 촬영 장비와 촬영 기법에 관한 촬영 관련 정보를 이용하기에 높은 인건비를 부담해야 하는 전문 촬영 인력을 고용하지 않고 그리고 고가의 촬영 장비 없이도 전문 촬영 기법이 적용된 고품질 동영상을 생성할 수 있다.
한편, 전문 카메라 촬영 기법 정보는 구체적인 정보로 수신될 수 있는바, 예를 들어 8초간 slow 패닝, 3초간 fast 패닝, 1초 줌인, 3초 줌 아웃 등과 같이 기법의 구체적인 적용 모습에 대한 정보까지 함께 수신될 수 있을 것이다.
이와 같은 S230 단계를 제3 단계라고 하는바, 보다 구체적으로 제1 단계 및 제2 단계의 산출물을 이용하여 고품질 동영상을 생성하는 단계로 볼 수 있으며, 이하, 도 9를 참조하여 설명하도록 한다.
도 9는 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 있어서, 고품질 동영상을 생성하는 제3 단계를 구체화한 순서도이다.
그러나 이는 본 발명의 목적을 달성함에 있어서 바람직한 실시 예일 뿐이며, 필요에 따라 일부 단계가 추가 또는 삭제될 수 있음은 물론이고, 어느 한 단계가 다른 단계에 포함되어 수행될 수도 있다.
우선, 장치(100)가 S210 단계에서 생성한 3D 모델과 S220 단계에서 추출한 고수준 특징자 및 탐지 정보, 수신한 촬영 관련 정보를 이용하여 초점 거리(Focal Length), 주점(Principal Point) 및 뒤틀림 계수(Skew Coefficient) 중 어느 하나 이상에 대한 내적 파라미터(Intrinsic Parameter)를 산출하며(S230-1), 이를 제3-1 단계라 한다.
여기서 초점 거리는 렌즈에서 빛이 모이는 지점과 이미지 센서 또는 필름 사이의 거리를 나타내고, 렌즈의 확대나 축소 정도를 결정하며, 주점은 이미지 센서 또는 필름을 통해 빛이 들어오는 지점을, 뒤틀림 계수는 렌즈의 중앙 부근에서 가장 적고, 가장 자리 부근에서 가장 심한 렌즈의 왜곡 정도를 나타내는바, 촬영과 관련하여 촬영 장비, 보다 구체적으로 카메라 렌즈의 광학적 특성을 설명하는 파라미터에 해당하며, 3D 모델에 대하여 오픈 소스로 존재하는 캘리브레이션 툴을 적용하거나 인공 신경망을 통한 학습 등의 방법을 통해 산출할 수 있다.
이후, 장치(100)가 S210 단계에서 생성한 3D 모델과 S220 단계에서 추출한 고수준 특징자 및 탐지 정보, 수신한 촬영 관련 정보를 이용하여 회전 및 평행이동 중 어느 하나 이상에 대한 외적 파라미터(Extrinsic Parameter)를 산출하며(S230-2), 이를 제3-2 단계라 한다.
여기서 회전은 촬영 장비인 카메라가 바라보는 방향이나 시야각을 변경하는 것을 의미하고, 보통 3축(x, y, z)를 기준으로 이루어지며, 평행이동은 카메라가 위치한 공간 상에서 이동하는 것을 의미하는바, 카메라가 어디에 위치하고 어느 방향을 바라보고 있는지를 나타내는 지표이며, 외적 파라미터를 결정하는 중요한 요소인바, 회전 및 평행이동을 결합하여 카메라의 자세(Pose)를 나타내는 변환 행렬(Transformation Matrix) - 이 변환 행렬은 3D 공간 상의 한 점을 카메라 좌표계에서의 좌표로 변환하는데 사용됨 - 을 만들 수 있기 때문이다.
이와 같은 외적 파라미터의 산출은 3D 모델에 대하여 OpenCV 등과 같은 오픈 소스를 활용한 변환 행렬 계산 및 전문 촬영 기법을 이해하는 인공지능 모델 학습 등의 방법을 통해 산출될 수 있다.
내적 파라미터와 외적 파라미터가 모두 산출되었다면, 장치(100)가 산출한 내적 파라미터 및 외적 파라미터와 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 촬영 관련 정보가 반영된 장면을 상기 3D 모델로부터 추출하며(S230-3), 이를 제3-3 단계라 한다.
제3-3 단계는 내적 파라미터를 통해 카메라 렌즈의 광학적 특성을 결정하고, 외적 파라미터를 통해 카메라의 위치와 방향을 결정한 상태에서 3D 모델을 대상으로 촬영 관련 정보를 적용하여 실제 촬영을 진행하는 것과 같은 단계로 이해할 수 있으며, 대상이 3D 모델이기에 촬영은 장면의 추출이 될 것이다.
한편, 장면을 추출하였으므로 이를 연결하여 동영상을 생성할 수 있을 것이나, 대상이 3D 모델이기에 추출한 장면을 3차원 렌더링하는 단계(S230-4, 제3-4 단계)를 추가적으로 수행함으로써 고품질 동영상을 생성할 수 있을 것이며, 여기서 3차원 렌더링은 래스터라이즈 레이트레이싱 등을 이용할 수 있을 것이다.
지금까지 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 대하여 설명하였다. 본 발명에 따르면, 장치(100)가 전문적인 촬영 기술을 보유하지 않은 일반 사용자가 보편적인 촬영 장비를 가지고 촬영한 동영상 데이터를 이용하여 3D 모델을 생성하고, 생성한 3D 모델을 분석한 후, 전문 촬영 기법에 관한 정보를 반영해 고품질 동영상을 자동으로 생성하는바, 종래 고품질 동영상 제작을 위해 높은 인건비를 부담해야 하는 전문 촬영 인력을 고용하지 않고, 장치만을 위한 비교적 적은 비용만으로 전문 촬영 기법이 적용된 고품질 동영상을 제작할 수 있다. 또한, 장치만을 위한 비교적 적은 비용만 부담하면 충분하며, 입력 데이터로 이용하는 동영상 데이터는 중/저가의 촬영 장비로 생성한 것이라도 무방한바, 고가의 촬영 장비 없이도 고품질 동영상을 제작할 수 있다. 아울러, 장치(100)가 입력 데이터인 동영상 데이터에 대하여 어느 방향에서도 바라볼 수 있는 3D 모델을 생성하기에 새로운 위치나 각도에서 바라보는 장면에 대한 고품질 동영상을 쉽게 제작할 수 있다. 더 나아가, 장치(100)가 전문가들을 완벽하게 대체하여 이들에 대한 인건비를 절약할 수 있게 됨으로써 소규모 제작자들 역시 고품질 동영상을 부담없이 제작할 수 있도록 이바지할 수 있다.
한편, 본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치(100)는 도 1과 같은 모습뿐만 아니라 도 10에 예시적으로 도시한 바와 같이 각각의 기능을 수행하는 기능적인 구성을 포함하는 장치(1000)로 나타낼 수도 있으며, 본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치(100) 및 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법은 모든 기술적 특징을 동일하게 포함하는 본 발명의 제3 실시 예에 따른 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램으로 구현할 수도 있는바, 이 경우 컴퓨팅 장치와 결합하여, (AA) 하나 이상의 촬영 장비로부터 하나 이상의 동영상 데이터를 수신하고, 이를 이용하여 상기 수신한 동영상 데이터가 나타내고 있는 오브젝트(Object)를 임의의 시점에서 바라볼 수 있는 하나 이상의 3D 모델을 생성하는 제1 단계, (BB) 상기 생성한 3D 모델로부터 고수준 특징자(High-level Feature) 및 탐지 정보를 추출하는 제2 단계 및 (CC) 하나 이상의 촬영 관련 정보를 수신하고, 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 적용된 장면(Scene)을 상기 3D 모델로부터 추출하여 고품질 동영상을 생성하는 제3 단계를 실행할 수 있을 것이며, 중복 서술을 위해 자세히 기재하지는 않았지만 본 발명의 제1 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치(100) 및 본 발명의 제2 실시 예에 따른 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 적용된 모든 기술적 특징은 본 발명의 제3 실시 예에 따른 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램에 모두 동일하게 적용될 수 있음은 물론이라 할 것이다.
이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
10: 프로세서
20: 네트워크 인터페이스
30: 메모리
40: 스토리지
41: 컴퓨터 프로그램
50: 정보 버스
100: 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치

Claims (13)

  1. 프로세서 및 메모리를 포함하는 장치가 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 있어서,
    (a) 하나 이상의 촬영 장비로부터 하나 이상의 동영상 데이터를 수신하고, 이를 이용하여 상기 수신한 동영상 데이터가 나타내고 있는 오브젝트(Object)를 임의의 시점에서 바라볼 수 있는 하나 이상의 3D 모델을 생성하는 제1 단계;
    (b) 상기 생성한 3D 모델로부터 고수준 특징자(High-level Feature) 및 탐지 정보를 추출하는 제2 단계; 및
    (c) 하나 이상의 촬영 관련 정보를 수신하고, 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 적용된 장면(Scene)을 상기 3D 모델로부터 추출하여 고품질 동영상을 생성하는 제3 단계;
    를 포함하는 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법에 있어서,
    상기 제1 단계는,
    (a-1) 상기 수신한 하나 이상의 동영상 데이터에 대한 전처리를 수행하는 제1-1 단계; 및
    (a-2) 상기 전처리를 수행한 하나 이상의 동영상 데이터를 학습이 완료된 암시적 신경망(Implicit Neural Network) 기반의 인공지능 모델에 입력하여 하나 이상의 3D 모델을 출력하는 제1-2 단계;
    중 어느 하나 이상을 포함하며,
    상기 (a-2) 단계에서 출력한 3D 모델이 복수 개라면, 상기 (a-2) 단계 이후에,
    (a-3) 상기 출력한 복수 개의 3D 모델을 정규화하여 최종적인 3D 모델을 복수 개 생성하는 제1-3 단계;
    를 더 포함하며,
    상기 (a-3) 단계에서의 정규화는,
    상기 복수 개의 3D 모델 사이의 관계 분석을 통해 겹치는 부분이 많은 3D 모델 간의 유사도는 높게, 겹치는 부분이 적은 3D 모델 간의 유사도는 낮게하는 손실함수를 이용하여 이루어지는,
    전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 (a-1) 단계에서의 전처리는,
    상기 동영상 데이터의 크기 조절, 해상도 조절, 프레임 샘플링 및 소정 크기 이상의 동영상 데이터의 경우 비디오 분할(Video Segmentation) 기법을 활용하여 일정 단위 길이의 청크(Chunk) 영상들로의 가공 중 어느 하나 이상을 포함하는,
    전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법.
  4. 제1항에 있어서,
    상기 (a-2) 단계에서의 학습은,
    상기 전처리를 수행한 하나 이상의 동영상 데이터에서 특정 시간과 시점에 해당하는 프레임 단위 표현자(Representation)의 학습 및 프레임 내 정적(Static), 동적(Dynamic), 신규(New) 오브젝트에 대한 성분 분리(Decomposition) 학습 중 어느 하나 이상인,
    전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 제2 단계는,
    (b-1) 상기 생성한 하나 이상의 3D 모델로부터 복수의 시점 및 시간대에서의 3차원 장면을 추출하는 제2-1 단계;
    (b-2) 상기 추출한 3차원 장면을 합성곱 신경망(Convolution Neural Network) 기반 인공지능 모델 또는 트랜스포머(Transformer) 기반 인공지능 모델에 입력하여 각 3차원 장면의 특징인 고수준 특징자를 추출하는 제2-2 단계; 및
    (b-3) 상기 추출한 고수준 특징자를 이용하여 상기 추출한 3차원 장면의 이해 및 탐지를 진행하고 상기 탐지 정보를 추출하는 제2-3 단계;
    중 어느 하나 이상을 포함하는 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법.
  7. 제6항에 있어서,
    상기 (b-3) 단계에서의 3차원 장면의 이해 및 탐지는,
    오브젝트 탐지 및 사람-오브젝트 간 상호 작용 탐지(Human-Object Interaction Detection) 중 어느 하나 이상을 포함하는,
    전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법.
  8. 제7항에 있어서,
    상기 탐지 정보는,
    상기 오브젝트 탐지의 진행에 따른 상기 3차원 장면 내에서 오브젝트가 있을 만한 영역에 대한 식별 정보, 해당 오브젝트의 종류에 대한 분류 정보, 상기 사람-오브젝트 간 상호 작용 탐지의 진행에 따른 상기 3차원 장면 내에서 사람과 오브젝트의 탐지 정보 및 상기 탐지한 사람과 오브젝트 사이에서 이루어지는 상호 작용의 종류에 대한 분류 정보 중 어느 하나 이상을 포함하는,
    전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법.
  9. 제1항에 있어서,
    상기 제3 단계는,
    (c-1) 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 초점 거리(Focal Length), 주점(Principal Point) 및 뒤틀림 계수(Skew Coefficient) 중 어느 하나 이상에 대한 내적 파라미터(Intrinsic Parameter)를 산출하는 제3-1 단계;
    (c-2) 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 회전 및 평행이동 중 어느 하나 이상에 대한 외적 파라미터(Extrinsic Parameter)를 산출하는 제3-2 단계; 및
    (c-3) 상기 산출한 내적 파라미터 및 외적 파라미터와 상기 수신한 촬영 관련 정보를 이용하여 상기 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 반영된 장면을 상기 3D 모델로부터 추출하는 제3-3 단계;
    중 어느 하나 이상을 포함하는 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법.
  10. 제9항에 있어서,
    상기 (c-3) 단계 이후에,
    (c-4) 상기 3D 모델로부터 추출한 장면을 3차원 렌더링하여 고품질 동영상을 생성하는 제3-4 단계;
    를 더 포함하는 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법.
  11. 제1항에 있어서,
    상기 촬영 관련 정보는,
    촬영 시점에 대한 정보, 촬영한 카메라 종류에 대한 정보 및 오브젝트의 종류에 대한 정보 중 어느 하나 이상을 포함하는 촬영 정보와 줌(Zoom), 팬(Pan), 틸트(Tilt) 및 달리(Dolly) 중 어느 하나 이상을 포함하는 전문 카메라 촬영 기법 정보 중 어느 하나 이상을 포함하는,
    전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법.
  12. 하나 이상의 프로세서;
    네트워크 인터페이스;
    상기 프로세서에 의해 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리; 및
    대용량 네트워크 데이터 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
    상기 컴퓨터 프로그램은 상기 하나 이상의 프로세서에 의해,
    (A) 하나 이상의 촬영 장비로부터 하나 이상의 동영상 데이터를 수신하고, 이를 이용하여 상기 수신한 동영상 데이터가 나타내고 있는 오브젝트(Object)를 임의의 시점에서 바라볼 수 있는 하나 이상의 3D 모델을 생성하는 제1 오퍼레이션;
    (B) 상기 생성한 3D 모델로부터 고수준 특징자(High-level Feature) 및 탐지 정보를 추출하는 제2 오퍼레이션; 및
    (C) 하나 이상의 촬영 관련 정보를 수신하고, 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 적용된 장면(Scene)을 상기 3D 모델로부터 추출하여 고품질 동영상을 생성하는 제3 오퍼레이션;
    을 실행하는 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치에 있어서,
    상기 제1 오퍼레이션은,
    (A-1) 상기 수신한 하나 이상의 동영상 데이터에 대한 전처리를 수행하는 제1-1 오퍼레이션; 및
    (A-2) 상기 전처리를 수행한 하나 이상의 동영상 데이터를 학습이 완료된 암시적 신경망(Implicit Neural Network) 기반의 인공지능 모델에 입력하여 하나 이상의 3D 모델을 출력하는 제1-2 오퍼레이션;
    중 어느 하나 이상을 포함하며,
    상기 (A-2) 오퍼레이션에서 출력한 3D 모델이 복수 개라면, 상기 (A-2) 오퍼레이션 이후에,
    (A-3) 상기 출력한 복수 개의 3D 모델을 정규화하여 최종적인 3D 모델을 복수 개 생성하는 제1-3 오퍼레이션;
    을 더 포함하며,
    상기 (A-3) 오퍼레이션에서의 정규화는,
    상기 복수 개의 3D 모델 사이의 관계 분석을 통해 겹치는 부분이 많은 3D 모델 간의 유사도는 높게, 겹치는 부분이 적은 3D 모델 간의 유사도는 낮게하는 손실함수를 이용하여 이루어지는,
    전문 촬영 기법이 적용된 고품질 동영상을 생성하는 장치.
  13. 컴퓨팅 장치와 결합하여,
    (AA) 하나 이상의 촬영 장비로부터 하나 이상의 동영상 데이터를 수신하고, 이를 이용하여 상기 수신한 동영상 데이터가 나타내고 있는 오브젝트(Object)를 임의의 시점에서 바라볼 수 있는 하나 이상의 3D 모델을 생성하는 제1 단계;
    (BB) 상기 생성한 3D 모델로부터 고수준 특징자(High-level Feature) 및 탐지 정보를 추출하는 제2 단계; 및
    (CC) 하나 이상의 촬영 관련 정보를 수신하고, 상기 생성한 3D 모델과 상기 추출한 고수준 특징자 및 탐지 정보, 상기 수신한 촬영 관련 정보를 이용하여 사용자로부터 선택 받은 오브젝트를 중심으로 상기 촬영 관련 정보가 적용된 장면(Scene)을 상기 3D 모델로부터 추출하여 고품질 동영상을 생성하는 제3 단계;
    를 실행하는 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 제1 단계는,
    (AA-1) 상기 수신한 하나 이상의 동영상 데이터에 대한 전처리를 수행하는 제1-1 단계; 및
    (AA-2) 상기 전처리를 수행한 하나 이상의 동영상 데이터를 학습이 완료된 암시적 신경망(Implicit Neural Network) 기반의 인공지능 모델에 입력하여 하나 이상의 3D 모델을 출력하는 제1-2 단계;
    중 어느 하나 이상을 포함하며,
    상기 (AA-2) 단계에서 출력한 3D 모델이 복수 개라면, 상기 (AA-2) 단계 이후에,
    (AA-3) 상기 출력한 복수 개의 3D 모델을 정규화하여 최종적인 3D 모델을 복수 개 생성하는 제1-3 단계;
    를 더 포함하며,
    상기 (AA-3) 단계에서의 정규화는,
    상기 복수 개의 3D 모델 사이의 관계 분석을 통해 겹치는 부분이 많은 3D 모델 간의 유사도는 높게, 겹치는 부분이 적은 3D 모델 간의 유사도는 낮게하는 손실함수를 이용하여 이루어지는,
    컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램.
KR1020230040165A 2022-05-20 2023-03-28 딥러닝 기술 기반 3차원 공간 모델링 및 시점 합성을 통해 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법과 이를 위한 장치 KR102593135B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220062325 2022-05-20
KR1020220062325 2022-05-20

Publications (1)

Publication Number Publication Date
KR102593135B1 true KR102593135B1 (ko) 2023-10-25

Family

ID=88515523

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230040165A KR102593135B1 (ko) 2022-05-20 2023-03-28 딥러닝 기술 기반 3차원 공간 모델링 및 시점 합성을 통해 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법과 이를 위한 장치

Country Status (1)

Country Link
KR (1) KR102593135B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200000104A (ko) 2018-06-22 2020-01-02 (주) 에셀티 자율 촬영 장치
KR20200063367A (ko) * 2018-11-23 2020-06-05 네이버웹툰 주식회사 딥러닝 기술을 이용하여 비디오 영상을 3d 비디오 영상으로 변환하는 방법 및 장치
KR20210064115A (ko) * 2019-08-23 2021-06-02 상 하이 이워 인포메이션 테크놀로지 컴퍼니 리미티드 촬영을 기반으로 하는 3d 모델링 시스템 및 방법, 자동 3d 모델링 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200000104A (ko) 2018-06-22 2020-01-02 (주) 에셀티 자율 촬영 장치
KR20200063367A (ko) * 2018-11-23 2020-06-05 네이버웹툰 주식회사 딥러닝 기술을 이용하여 비디오 영상을 3d 비디오 영상으로 변환하는 방법 및 장치
KR20210064115A (ko) * 2019-08-23 2021-06-02 상 하이 이워 인포메이션 테크놀로지 컴퍼니 리미티드 촬영을 기반으로 하는 3d 모델링 시스템 및 방법, 자동 3d 모델링 장치 및 방법

Similar Documents

Publication Publication Date Title
EP3882808B1 (en) Face detection model training method and apparatus, and face key point detection method and apparatus
US11238644B2 (en) Image processing method and apparatus, storage medium, and computer device
CN110166685B (zh) 用来捕获与目标图像模型对准的数字图像的智能指导
US9361723B2 (en) Method for real-time face animation based on single video camera
US11688145B2 (en) Virtualizing content
Chaudhuri et al. Personalized face modeling for improved face reconstruction and motion retargeting
US20220044352A1 (en) Cross-domain image translation
CN106156693B (zh) 用于面部识别的基于多模型表示的鲁棒错误纠正方法
WO2022148248A1 (zh) 图像处理模型的训练方法、图像处理方法、装置、电子设备及计算机程序产品
KR102593135B1 (ko) 딥러닝 기술 기반 3차원 공간 모델링 및 시점 합성을 통해 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법과 이를 위한 장치
US11734888B2 (en) Real-time 3D facial animation from binocular video
US20180329503A1 (en) Sensor system for collecting gestural data in two-dimensional animation
Blat et al. Big data analysis for media production
Lai et al. Correcting face distortion in wide-angle videos
Chen et al. Depth recovery with face priors
US20230394699A1 (en) Method of estimating a three-dimensional position of an object
EP4303817A1 (en) A method and an apparatus for 360-degree immersive video
US20230260184A1 (en) Facial expression identification and retargeting to an avatar
An et al. End-to-End 3D Face Model Reconstruction Method Based on Fusion-CNN
Seifoddini et al. ALiSNet: Accurate and Lightweight Human Segmentation Network for Fashion E-Commerce
Ma Real-time Facial Performance Capture and Manipulation
CN115497029A (zh) 视频处理方法、装置及计算机可读存储介质
CN116193093A (zh) 视频制作方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant