KR20200063367A - 딥러닝 기술을 이용하여 비디오 영상을 3d 비디오 영상으로 변환하는 방법 및 장치 - Google Patents

딥러닝 기술을 이용하여 비디오 영상을 3d 비디오 영상으로 변환하는 방법 및 장치 Download PDF

Info

Publication number
KR20200063367A
KR20200063367A KR1020180146674A KR20180146674A KR20200063367A KR 20200063367 A KR20200063367 A KR 20200063367A KR 1020180146674 A KR1020180146674 A KR 1020180146674A KR 20180146674 A KR20180146674 A KR 20180146674A KR 20200063367 A KR20200063367 A KR 20200063367A
Authority
KR
South Korea
Prior art keywords
video image
learning
image
converting
video
Prior art date
Application number
KR1020180146674A
Other languages
English (en)
Other versions
KR102250163B1 (ko
Inventor
김대식
박규태
손성준
이명기
Original Assignee
네이버웹툰 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버웹툰 주식회사 filed Critical 네이버웹툰 주식회사
Priority to KR1020180146674A priority Critical patent/KR102250163B1/ko
Publication of KR20200063367A publication Critical patent/KR20200063367A/ko
Application granted granted Critical
Publication of KR102250163B1 publication Critical patent/KR102250163B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/158Switching image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

비디오 영상을 3D 비디오 영상으로 변환하는 방법에 있어서, 적어도 두 개 이상의 카메라를 이용하여 학습 비디오 영상을 촬영한다. 상기 학습 비디오 영상을 이용하여 3D 모델링된 학습 3D 비디오 영상을 생성하고, 상기 학습 비디오 영상과 상기 학습 3D 비디오 영상을 이용하여 인공 신경망 모델을 학습시키는 학습한다. 상기 학습된 인공 신경망 모델에 변환하고자 하는 비디오 영상을 입력하는 입력 한다. 학습된 상기 인공 신경망 모델을 이용하여 상기 비디오 영상으로부터 3D 비디오 영상을 생성하는 영상 변환한다. 상기 3D 비디오 영상을 출력하는 출력한다.

Description

딥러닝 기술을 이용하여 비디오 영상을 3D 비디오 영상으로 변환하는 방법 및 장치{METHOD AND APPARATUS OF CONVERTING 3D VIDEO IMAGE FROM VIDEO IMAGE USING DEEP LEARNING}
본 발명은 비디오 영상 변환에 관한 것으로서, 더욱 상세하게는 딥러닝 기술을 이용하여 비디오 영상을 3D 비디오 영상으로 변환하는 방법 및 상기 방법을 수행하는 장치에 관한 것이다.
일반적으로, 카메라를 이용하여 촬영한 영상은 3차원 공간 상의 촬영 대상물을 2차원 평면 상에 표시한다. 상기 촬영 대상물의 움직임을 연속적으로 촬영하면, 시간에 따라 변화하는 복수의 프레임 영상들을 포함하는 비디오 영상을 얻을 수 있다.
상기 비디오 영상은 상기 촬영 대상물을 하나의 시점(view point)에서 관찰한 평면 영상을 연속적으로 보여줄 뿐, 상기 촬영 대상물의 깊이(depth) 정보를 나타내지 못하므로, 상기 촬영 대상물의 뒷면이나 측면, 공간상의 위치 정보를 정확하게 표현하지 못한다.
이에 2차원 영상 이용하여, 3차원 영상을 얻기 위한 다양한 기술들이 개발되고 있다. 그러나, 3D 영상을 얻기 위해서는 촬영 대상물을 서로 다른 각도에서 촬영된 두 개 이상의 영상을 이용하여 3D 영상으로 변환하거나, 또는, 미리 설정된 데이터 베이스를 활용하여 상기 촬영 대상물의 깊이 정보를 계산하는 방법 등이 개발되고 있다.
그러나, 상기 방법은 두 개 이상의 카메라를 이용하는 특수 촬영 장치를 사용하거나, 각각의 영상에 맞는 데이터 베이스를 미리 저장할 필요가 있으며, 다양한 3D 비디오 영상을 얻기 위해서는, 각각의 3D 비디오 영상을 얻기 위한 특수 촬영 장치를 사용하거나, 여러 가지 상황의 데이터 베이스를 모두 입력해야 하는 문제가 있었다.
본 발명의 일 목적은 딥러닝(deep learning) 기술을 이용하여 일반적인 카메라를 이용하여 촬영된 2차원(2D) 비디오 영상을 3차원(3D) 비디오 영상으로 변환하는 방법을 제공하는 것이다.
본 발명의 일 목적은 상기 방법을 수행하는 장치를 제공하는 것이다.
상기 일 목적을 달성하기 위해, 본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 방법에 있어서, 적어도 두 개 이상의 카메라를 이용하여 학습 비디오 영상을 촬영한다. 상기 학습 비디오 영상을 이용하여 3D 모델링 된 학습 3D 비디오 영상을 생성하고, 상기 학습 비디오 영상과 상기 학습 3D 비디오 영상을 이용하여 인공 신경망 모델을 학습시키는 학습한다. 상기 학습된 인공 신경망 모델에 변환하고자 하는 비디오 영상을 입력하는 입력 한다. 학습된 상기 인공 신경망 모델을 이용하여 상기 비디오 영상으로부터 3D 비디오 영상을 생성하는 영상 변환한다. 상기 3D 비디오 영상을 출력하는 출력한다.
상기 일 목적을 달성하기 위해, 본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 장치는 적어도 두 개 이상의 카메라를 이용하여 촬영된 학습 비디오 영상으로부터 3D 모델링 된 학습 3D 비디오 영상을 생성하는 학습 3D 비디오 영상 생성부 및 상기 학습 비디오 영상과 상기 학습 3D 비디오 영상을 이용하여 학습된 인공 신경망 모델을 이용하여, 비디오 영상으로부터 3D 비디오 영상을 생성하는 영상 변환부를 포함한다.
상기 일 목적을 달성하기 위해, 본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 장치는 복수의 프레임 영상을 포함하는 비디오 영상을 수신하는 입력 버퍼, 상기 비디오 영상을 인공 신경망 모델을 이용하여 복수의 3D 프레임 영상을 포함하는 3D 비디오 영상으로 변환하는 영상 변환부를 포함하는 프로세싱 소자, 및 상기 3D 비디오 영상을 출력하는 출력 버퍼를 포함한다.
상기와 같은 본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 방법 및 장치에서는, 딥러닝 기술을 이용하여 하나의 프레임 영상에 2차원 좌표 정보만을 포함하는 비디오 영상으로부터 하나의 프레임 영상이 3차원 좌표 정보를 포함하는 3D 비디오 영상을 생성할 수 있다.
도 1은 본 발명의 실시예들에 따른 비디오 영상(VIMG)을 3D 비디오 영상(3DVIMG)으로 변환하는 장치를 나타내는 블록도이다.
도 2는 딥러닝 기술을 이용하여 도 1의 비디오 영상(VIMG)을 3D 비디오 영상(3DVIMG)으로 변환하는 장치를 학습시키는 것을 나타낸 블록도이다.
도 3a 및 3b는 도 2의 학습 비디오 영상(TVIMG)을 획득하는 것을 나타낸 도면이다.
도 4a 내지 4d는 도 3a의 카메라들에 의해 촬영된 학습 비디오 영상(TVIMG)의 각 프레임 영상을 나타낸 도면이다.
도 5는 도 1의 비디오 영상(VIMG)의 각 프레임 영상을 나타낸 도면이다.
도 6은 도 1의 3D 비디오 영상(3DVIMG)의 각 프레임 영상을 나타낸 도면이다.
도 7은 본 발명의 실시예들에 따른 비디오 영상(VIMG)을 3D 비디오 영상(3DVIMG)으로 변환하는 방법을 나타낸 순서도이다.
도 8은 본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 장치를 포함하는 컴퓨팅 시스템을 나타내는 블록도이다.
본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
한편, 어떤 실시예가 달리 구현 가능한 경우에 특정 블록 내에 명기된 기능 또는 동작이 순서도에 명기된 순서와 다르게 일어날 수도 있다. 예를 들어, 연속하는 두 블록이 실제로는 실질적으로 동시에 수행될 수도 있고, 관련된 기능 또는 동작에 따라서는 상기 블록들이 거꾸로 수행될 수도 있다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 실시예들에 따른 비디오 영상(VIMG)을 3D 비디오 영상(3DVIMG)으로 변환하는 장치를 나타내는 블록도이다.
도 1을 참조하면, 상기 장치는 입력 버퍼(110), 적어도 하나의 프로세싱 소자(120) 및 출력 버퍼(130)를 포함한다. 상기 장치는 파라미터 버퍼(140) 및 메모리(150)를 더 포함할 수 있다.
상기 입력 버퍼(110)는 복수의 프레임 영상들을 포함하는 비디오 영상(VIMG)을 수신할 수 있다. 예를 들어, 상기 입력 버퍼(110)는 적어도 하나의 프레임 버퍼를 포함할 수 있다.
상기 프로세싱 소자(120)는 본 발명의 실시예들에 따른 비디오 영상(VIMG)을 3D 비디오 영상(3DVIMG)으로 변환하는 방법을 수행한다.
구체적으로, 상기 비디오 영상(VIMG)은 촬영 대상물을 일반적인 카메라를 이용하여 촬영한 동영상으로, 복수의 프레임 영상들을 포함하며, 각각의 프레임 영상은 특정 시간의 영상으로, 상기 촬영 대상물의 x좌표, y좌표 및 그레이 스케일 값(또는 컬러 영상인 경우, R, G, B 값)에 대한 정보를 포함할 수 있다. [f(x, y)]
한편, 여기서 상기 x좌표, y좌표의 축은 촬영된 영상의 일 프레임 영상에서의 x축 및 y축의 좌표를 의미하여, 이는 촬영된 비디오 영상의 일 프레임 영상은 이차원 평면 상에 표현되기 때문이다. 즉, 상기 비디오 영상(VIMG)은 촬영 대상물의 이차원 평면 상에서의 좌표값 들의 정보를 포함하고 있으며, 촬영 대상물의 깊이(depth; 즉, 3차원 위치 정보)를 포함하지 않고 있다.
또한, 상기 일 프레임 영상은 촬영 대상물의 어느 한 시점(view point)에서 바라본 2차원 평면 영상을 포함하면 족하고, 상기 x축 및 y축이 고정될 필요는 없으며, 따라서, 상기 비디오 영상(VIMG)은 시간에 따라 시점(view point)가 변화하는 동영상인 경우라도 무방하다.
상기 프로세싱 소자(120)는 영상 변환부(121)를 포함할 수 있다. 상기 프로세싱 소자(120)이 상기 영상 변환부(121)는 상기 입력 버퍼(110)로부터 수신한 상기 비디오 영상(VIMG)을 미리 학습된 인공 신경망 모델을 이용하여 상기 비디오 영상(VIMG)의 각 프레임 영상에 포함되지 않은 정보인 3차원 공간의 좌표값, 즉 뎁스(depth)값을 추론할 수 있다.
이에 따라 상기 촬영 대상물의 특정 시간에서의 2차원 적인 위치(f(x,y))만을 포함하는 비디오 영상으로부터 상기 촬영 대상물의 상기 특정 시간에서의 3차원 적인 위치(f(x,y,z))정보를 포함하는 3D 비디오 영상(3DVIMG)을 생성할 수 있다.
즉, 상기 프로세싱 소자(120)는 각각의 프레임 영상이 상기 촬영 대상물의 2차원 좌표만을 포함하는 상기 비디오 영상(VIMG)으로부터 각각의 프레임 영상이 상기 촬영 대상물의 3차원 좌표를 포함하는 상기 3D 비디오 영상(3DVIMG)을 생성할 수 있다.
예를 들면, 상기 프로세싱 소자(120)는 상기 비디오 영상(VIMG)의 복수의 프레임 영상들 각각에 대한 특성을 추출하여 특성 맵(feature map)들을 생성하고, 이들을 연산하여, 상기 각각의 프레임 영상들의 뎁스(depth)를 추론할 수 있다. 이때, 상기 특성 맵의 생성 및 연산은 컨볼루션 신경망(convolution neural network; CNN) 및/ 또는 순환 신경망(recurrent neural network RNN)을 기반으로 구현되는 레이어, 정정 선형 유닛(rectified linear unit; RELU) 레이어, 풀링(pooling) 레이어, 바이어스 가산(bias add) 레이어, 소프트맥스(softmax) 레이어 등과 같은 다양한 연산 레이어들을 포함하는 연산 모델에 의해 구현될 수 있다.
한편, 인공 신경망(artificial neural network; ANN)이란 연결 선으로 연결된 많은 수의 인공 뉴런들을 사용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 연산 모델을 나타낸다. 상기 인공 신경망에서는 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런을 사용하게 된다. 그리고 연결 강도를 갖는 연결 선을 통해 상호 연결시켜 인간의 인지 작용이나 학습 과정을 수행하게 된다. 즉, 상기 프로세싱 소자(120)의 상기 연산 모델은 상기 인공 신경망을 이용하여 미리 학습된 상태의 연산 모델일 수 있다.
상기 3D 비디오 영상(3DVIMG)은 상기 비디오 영상(VIMG)이 포함하고 있는 대상을 3차원 모델링한 3D 동영상으로, 복수의 3D 프레임 영상들을 포함하며, 각각의 3D 프레임 영상은 특정 시간의 영상일 수 있다. 따라서, 상기 3D 비디오 영상(3DVIMG)의 각각의 상기 3D 프레임 영상은 상기 촬영 대상물의 3차원 좌표(x좌표, y좌표 및 z좌표)에 대한 정보를 포함할 수 있다 [f(x, y, z)]
즉, 상기 3D 비디오 영상(3DVIMG)은 상기 촬영된 대상물의 3차원 좌표 정보를 포함하고 있으므로, 상기 3D 비디오 영상(3DVIMG)의 각각의 3D 프레임 영상에 있어서, 상기 촬영 대상물을 사용자가 원하는 다양한 각도에서 바라볼 수 있다. 즉, 상기 3D 비디오 영상(3DVIMG)의 시점을 사용자가 원하는 위치 및 방향으로, 자유롭게 변경할 수 있다.
예를 들면, 입력 영상인 상기 비디오 영상(VIMG)이 축구 중계 동영상인 경우, 상기 프로세서(120)는 일반적으로 TV 화면등에 중계되는 하나의 카메라로 촬영된 축구 중계 동영상으로부터, 동영상 내의 오브젝트(예를 들면, 축구공, 축구 선수, 심판 등 위치, 외형 정보 등)의 3차원 위치 정보를 포함하는 3D 비디오 영상(3DVIMG)을 출력할 수 있다. 출력된 상기 3D 비디오 영상(3DVIMG)은 상기 오브젝트들의 3차원 위치 정보를 포함하고 있으므로, 사용자의 선택에 따라 특정 선수의 움직임을 계속적으로 관찰하거나, 특정 선수의 시점에서, 또는 심판의 시점에서 축구 경기를 관람할 수 있다. 또한, 상기 오브젝트들은 3차원 렌더링 되므로, 각 선수들의 움직임을 상하좌우 어느 쪽에서든지 관찰이 가능하며, 가상현실(virtual reality; VR) 콘텐츠에도 활용할 수 있을 것이다.
다른 예로는 태권도 품세, 춤 등을 촬영한 비디오 영상을 입력하여, 3D 모델링된 3D 비디오 영상을 출력할 수도 있을 것이다.
또 다른 예로는 2차원 동영상으로부터 특정 물체의 공간상에서의 좌표를 3차원 추정하여 3D 공간으로 모델링하는 것도 가능하다. 즉, 입력되는 동영상의 배경의 위치나 촬영 위치의 제한 없이 3D 동영상으로의 변환이 가능하다.
종래의 경우, 하나의 시간(time)에 서로 다른 시점(view point)에서 동일한 촬영대상물을 촬영된 복수의 영상들을 스티칭(stitching) 등의 기술을 이용하여, 3D 비디오 영상을 생성하는 방법을 사용하였으나, 본 실시예에의하면, 이미 학습된 연산 모델을 구현하는 프로세서(120)를 이용하여, 2D 비디오 영상으로부터 3D 비디오 영상을 생성할 수 있다.
이는 앞서 설명한 것과 마찬가지로, 미리 학습된 인공 신경망 연산 모델을 통해, 복수의 프레임 영상들로부터, 사람이 사물의 뒷면을 추론하는 것과 유사하게, 촬영 대상물의 안 보이는 뒷면 등을 추론(뎁스(depth)를 추론)할 수 있기 때문이다.
일 실시예에서, 상기 프로세싱 소자(120)는 상술한 복수의 연산들을 수행하기 위해 중앙 처리 장치(central processing unit; CPU), 그래픽 처리 장치(graphic processing unit; GPU), 신경 처리 장치(neural processing unit; NPU), 디지털 신호 프로세서(digital signal processor; DSP), 영상 신호 프로세서(image signal processor; ISP) 등과 같은 다양한 처리 장치들 중 적어도 하나를 포함하여 구현될 수 있다. 실시예에 따라서, 프로세싱 소자(120)는 상술한 처리 장치들 중 동일한 종류의(homogeneous) 처리 장치들을 복수 개 포함하거나, 서로 다른 종류의(heterogeneous) 처리 장치들을 복수 개 포함하여 구현될 수 있다.
일 실시예에서, 상기 프로세싱 소자(120)는 상술한 복수의 연산들을 병렬 처리하기 위해 복수의 프로세서 코어(processor core)들을 포함하여 구현될 수 있다.
상기 출력 버퍼(130)는 상기 프로세싱 소자(120)의 연산의 결과로서 출력 결과인 상기 3D 비디오 영상(3DVIMG)를 저장 및 출력할 수 있다. 예를 들어, 상기 출력 버퍼(130)는 적어도 하나의 레지스터를 포함할 수 있다.
상기 파라미터 버퍼(140)는 프로세싱 소자(120)가 상술한 복수의 연산들을 수행하는데 이용되는 복수의 파라미터들 및/또는 복수의 하이퍼 파라미터(hyper parameter)들을 저장할 수 있다. 예를 들면, 상기 파라미터 버퍼(140)는 학습 과정에 의해 학습된 인공 신경망 모델의 파라미터들을 저장할 수 있다.
상기 메모리(150)는 상기 프로세싱 소자(120)에 의해 처리되었거나 처리될 예정인 데이터들을 임시로 또는 지속적으로 저장할 수 있다. 예를 들어, 상기 메모리(150)는 DRAM(dynamic random access memory), SRAM(static random access memory) 등과 같은 휘발성 메모리, 및 플래시 메모리(flash memory), PRAM(phase change random access memory), RRAM(resistance random access memory), NFGM(nano floating gate memory), PoRAM(polymer random access memory), MRAM(magnetic random access memory), FRAM(ferroelectric random access memory) 등과 같은 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 실시예에 따라서, 상기 메모리(150)는 SSD(solid state drive), eMMC(embedded multimedia card), UFS(universal flash storage) 등과 같은 대용량 저장 장치의 형태로 구현될 수도 있다.
도시하지는 않았으나, 상기 비디오 영상(VIMG)을 3D 비디오 영상(3DVIMG)으로 변환하는 장치는 구성요소들의 전반적인 동작을 제어하는 제어부, 특정 작업의 할당을 관리하는 작업 관리자 등을 더 포함할 수 있다.
도 2는 딥러닝 기술을 이용하여 도 1의 비디오 영상(VIMG)을 3D 비디오 영상(3DVIMG)으로 변환하는 장치를 학습시키는 것을 나타낸 블록도이다.
도 1 및 2를 참조하면, 상기 프로세싱 소자(120)는 학습 3D 비디오 영상 생성부(122)를 더 포함할 수 있다.
상기 학습 3D 비디오 영상 생성부(122)는 학습 비디오 영상(TVIMG)를 이용하여, 학습 3D 비디오 영상(3DTVIMG)을 생성할 수 있다. 상기 학습 비디오 영상(TVIMG)은 학습용 촬영 대상물을 촬영한 비디오 영상이며, 상기 학습 비디오 영상(TVIMG)은 도 3a 내지 4d 에서 후술할 복수의 카메라를 이용하여 획득할 수 있다. 상기 학습 비디오 영상(TVIMG)은 적어도 두 개 이상의 카메라를 이용하여, 동일한 시간 동안 동일한 학습용 촬영 대상물을 서로 다른 시점(view point)에서 촬영한 두 개 이상의 비디오 영상 세트를 포함할 수 있다. 예를 들어, 4개의 카메라를 이용하여 상기 학습 비디오 영상(TVIMG)을 획득하는 경우, 상기 학습 비디오 영상(TVIMG)은 동일한 시간 동안 동일한 학습용 촬영 대상물을 서로 다른 시점(view point)에서 촬영한 제1 내지 제4 학습 비디오 영상들(TVIMG1, TVIMG2, TVIMG3, TVIMG4)을 포함할 수 있다.
상기 학습 3D 비디오 영상(3DTVIMG)은 상기 학습 비디오 영상(TVIMG)을 이용하여 3차원 모델링한 3D 동영상으로, 복수의 3D 프레임 영상들을 포함할 수 있다. 즉, 상기 학습 3D 비디오 영상(3DTVIMG)의 각각의 상기 3D 프레임 영상은 상기 학습용 촬영 대상물의 3차원 좌표(x좌표, y좌표 및 z좌표)에 대한 정보를 포함할 수 있다.
상기 3D 학습 비디오 영상(3DTVIMG)은 서로 다른 각도에서 촬영된 두 개 이상의 영상을 이용하여 3D 영상으로 변환하는 종래의 기술을 이용하여 생성할 수 있으며, 예를 들면, 여러 대의 카메라가 촬영한 영상을 360도 방향에서 볼 수 있도록 이어 붙여주는 스티칭(Stitching) 기술 등을 이용할 수 있다.
상기 학습 비디오 영상(TVIMG) 및 상기 3D 학습 비디오 영상(3DTVIMG)을 이용하여, 상기 인공 신경망 모델을 학습(training)시킬 수 있다. 즉, 상기 학습 비디오 영상(TVIMG) 및 상기 3D 학습 비디오 영상(3DTVIMG)을 학습 데이터 세트로 이용하여, 지도학습(Supervised Learning)을 실행할 수 있다. 복수의 학습용 촬영 대상물에 대해 반복적으로 학습 데이터 세트를 얻고, 이를 반복하여 학습을 수행할 수 있다.
도 3a 및 3b는 도 2의 학습 비디오 영상(TVIMG)을 획득하는 것을 나타낸 도면이다. 도 4a 내지 4d는 도 3a의 카메라들에 의해 촬영된 학습 비디오 영상(TVIMG)의 각 프레임 영상을 나타낸 도면이다.
도 3 및 4를 참조하면, 상기 학습 비디오 영상(TVIMG)는 적어도 두 개 이상의 카메라들을 이용하여 획득할 수 있다. 예를 들면, 상기 학습 비디오 영상(TVIMG)은 제1 카메라(210)를 이용하여 촬영된 제1 학습 비디오 영상(TVIMG1), 제2 카메라(220)를 이용하여 촬영된 제2 학습 비디오 영상(TVIMG2), 제3 카메라(230)를 이용하여 촬영된 제3 학습 비디오 영상(TVIMG3) 및 제4 카메라(240)를 이용하여 촬영된 제4 학습 비디오 영상(TVIMG1)을 포함할 수 있다.
상기 제1 내지 제4 카메라들(210, 220, 230, 240)을 이용하여 학습용 촬영 대상물을 동시에 촬영하여, 상기 학습용 촬영 대상물을 서로 다른 각도에서 촬영한 학습 비디오 영상을 획득할 수 있다. 상기 제1 카메라(210)가 촬영하는 영상의 평면의 축을 x 축 및 y축으로 정의하면, xz평면상에서 볼 때, 상기 학습용 촬영 대상물을 중심으로, 인접하는 상기 제1 내지 제4 카메라들 간의 각도는 45도, 90도 또는 135도로 설정되고, 상기 제1 카메라(210)와 상기 제2 카메라(220)이 서로 마주보고, 상기 제3 카메라(230)와 상기 제4 카메라(240)가 서로 마주보도록 설정할 수 있다.
도 4a를 참조하면, 상기 제1 카메라(210)에서 촬영된 제1 학습 비디오 영상(TVIMG1)의 제1 프레임 영상(TVIMG1_f1), 제50 프레임 영상(TVIMG1_f50) 및 제100 프레임 영상(TVIMG1_f100)이 나타나 있다.
도 4b를 참조하면, 상기 제2 카메라(220)에서 촬영된 제2 학습 비디오 영상(TVIMG2)의 제1 프레임 영상(TVIMG2_f1), 제50 프레임 영상(TVIMG2_f50) 및 제100 프레임 영상(TVIMG2_f100)이 나타나 있다.
도 4c를 참조하면, 상기 제3 카메라(230)에서 촬영된 제3 학습 비디오 영상(TVIMG3)의 제1 프레임 영상(TVIMG3_f1), 제50 프레임 영상(TVIMG3_f50) 및 제100 프레임 영상(TVIMG3_f100)이 나타나 있다.
도 4d를 참조하면, 상기 제4 카메라(240)에서 촬영된 제4 학습 비디오 영상(TVIMG4)의 제1 프레임 영상(TVIMG4_f1), 제50 프레임 영상(TVIMG4_f50) 및 제100 프레임 영상(TVIMG4_f100)이 나타나 있다.
본 실시예에 따른, 비디오 영상을 3D 비디오 영상으로 변환하는 장치는 복수 사람들의 동일한 동작들을 반복적으로 학습하여, 하나의 프레임 영상에 2차원 좌표 정보만을 포함하는 비디오 영상으로부터 하나의 프레임 영상이 3차원 좌표 정보를 포함하는 3D 비디오 영상을 추론(inference)할 수 있다.
도 4a 내지 4d에는 골프 스윙 동작을 학습하는 예를 나타내었으나, 이에 한정되지 않고, 다양한 동작, 또는 공간상의 움직임을 학습할 수 있을 것이다.
도 5는 도 1의 비디오 영상(VIMG)의 각 프레임 영상을 나타낸 도면이다. 도 6은 도 1의 3D 비디오 영상(3DVIMG)의 각 프레임 영상을 나타낸 도면이다.
도 5를 참조하면, 비디오 영상(VIMG)의 제1 프레임 영상(VIMG_f1) 및 제 50 프레임 영상(VIMG_f50)이 나타나 있다. 상기 비디오 영상(VIMG)은 본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 방법 및 장치를 통해 3D 비디오 영상(3DVIMG)으로 변환될 수 있다.
도 6을 참조하면, 상기 3D 비디오 영상(3DVIMG)의 제1 프레임 영상(3DVIMG_f1) 및 제 50 프레임 영상(3DVIMG_f50)이 나타나 있다. 각각의 프레임 영상은 3차원 렌더링되어, 촬영 대상물의 3차원 좌표 정보를 포함하고 있으므로, 상기 촬영 대상물의 우측(RIGHT SIDE), 좌측(LEFT SIDE), 후 측(BACK SIDE) 등을 바라보도록 시점(view point)를 자유롭게 변경할 수 있다.
도 7은 본 발명의 실시예들에 따른 비디오 영상(VIMG)을 3D 비디오 영상(3DVIMG)으로 변환하는 방법을 나타낸 순서도이다.
도 7을 참조하면, 비디오 영상(VIMG)을 3D 비디오 영상(3DVIMG)으로 변환하는 방법은 학습 비디오 영상(TVIMG) 촬영 단계(S100), 학습 단계(S200), 비디오 영상(VIMG) 입력 단계(S300), 영상 변환 단계(S400), 3D 비디오 영상(3DVIMG) 출력 단계(S400)을 포함할 수 있다.
상기 학습 비디오 영상(TVIMG) 촬영 단계(S100)에서는, 적어도 두 개 이상의 카메라를 이용하여 학습 비디오 영상(TVIMG)을 촬영할 수 있다. 도 3a 내지 4d에서 이미 설명한 바와 같이, 제1 내지 제4 카메라들을 이용하여 학습용 촬영 대상물을 동시에 촬영하여, 상기 학습용 촬영 대상물을 서로 다른 각도에서 촬영한 상기 학습 비디오 영상(TVIMG)을 획득할 수 있다. 이때, 상기 학습용 촬영 대상물을 중심으로, 인접하는 상기 제1 내지 제4 카메라들 간의 각도는 45도, 90도 또는 135도일 수 있다.
상기 학습 단계(S200)에서는, 상기 학습 비디오 영상(TVIMG)을 이용하여 3D 모델링된 학습 3D 비디오 영상을 생성하고, 상기 학습 비디오 영상(TVIMG)과 상기 학습 3D 비디오 영상을 이용하여 인공 신경망 모델을 학습시킬 수 있다. 예를 들면, 복수 사람들의 동일한 동작들을 반복적으로 학습할 수 있으며, 이에 대한 자세한 설명은 도 1 내지 4d 에서 설명한 바와 같다.
상기 비디오 영상(VIMG) 입력 단계(S300)에서는, 3D 변환하고자 하는 비디오 영상(VIMG)을 상기 인공 신경망 모델에 입력할 수 있다. 상기 비디오 영상(VIMG)은 하나의 카메라를 이용하여 촬영된 동영상이 수 있으며, 비디오 영상(VIMG)의 각각의 프레임 영상은 촬영 대상물의 2차원 좌표 정보를 포함할 수 있다.
상기 영상 변환 단계(S400)에서는, 학습된 상기 인공 신경망 모델을 이용하여 상기 비디오 영상(VIMG)으로부터 3D 비디오 영상(3DVIMG)을 생성할 수 있다. 상기 3D 비디오 영상(3DVIMG)은 상기 비디오 영상(VIMG)의 촬영 대상물의 3차원 위치 정보를 포함할 수 있다. 즉, 상기 3D 비디오 영상(3DVIMG)의 각각의 3D 프레임 영상은 상기 촬영 대상물의 3차원 좌표 정보를 포함할 수 있다. 따라서, 상기 3D 비디오 영상(3DVIMG)의 시점(view point)은 사용자의 요구에 따라 다양하게 변화 가능할 수 있다.
상기 출력 단계(S400)에서는, 상기 3D 비디오 영상(3DVIMG)을 출력할 수 있다.
도 8은 본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 장치를 포함하는 컴퓨팅 시스템을 나타내는 블록도이다.
도 8을 참조하면, 본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 방법 및 장치는, 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터로 판독 가능한 프로그램 코드를 포함하는 제품 등의 형태로 구현될 수도 있다. 상기 컴퓨터로 판독 가능한 프로그램 코드는 다양한 컴퓨터 또는 다른 데이터 처리 장치의 프로세서로 제공될 수 있다. 상기 컴퓨터로 판독 가능한 매체는 컴퓨터로 판독 가능한 신호 매체 또는 컴퓨터로 판독 가능한 기록 매체일 수 있다. 상기 컴퓨터로 판독 가능한 기록 매체는 명령어 실행 시스템, 장비 또는 장치 내에 또는 이들과 접속되어 프로그램을 저장하거나 포함할 수 있는 임의의 유형적인 매체일 수 있다.
상기 컴퓨팅 시스템(1000)은 프로세서(1010) 및 영상 변환 장치(100)를 포함한다. 컴퓨팅 시스템(1000)은 통신(connectivity)부(1020), 저장부(1030), 사용자 인터페이스(1050) 및 전원 공급부(1060)를 더 포함할 수 있다.
프로세서(1010)는 특정 계산들 또는 태스크들과 같은 다양한 컴퓨팅 기능들을 실행할 수 있다. 예를 들어, 프로세서(1010)는 CPU, 마이크로프로세서, AP(application processor) 등과 같은 임의의 프로세서일 수 있다. 프로세서(1010)는 컴퓨팅 시스템(1000)을 구동하기 위한 운영 체제(operating system; OS)를 실행할 수 있고, 인터넷 브라우저, 게임, 동영상, 카메라 등을 제공하는 다양한 어플리케이션들을 실행할 수 있다.
영상 변환 장치(100)는 프로세서(1010)에 의해 제어된다. 영상 변환 장치(100)는 도 1의 장치일 수 있으며, 도 1 내지 7을 참조하여 상술한 방식에 기초하여 동작하고 움직임 특성 네트워크 시스템을 형성할 수 있다. 실시예에 따라서, 영상 변환 장치(100)의 일부는 프로세서(1010) 및/또는 저장부(1030)에 포함될 수 있다.
통신부(1020)는 외부 장치와 통신을 수행할 수 있다. 예를 들어, 통신부(1020)는 범용 직렬 버스(Universal Serial Bus; USB) 통신, 이더넷(Ethernet) 통신, 근거리 무선 통신(Near Field Communication; NFC), 무선 식별(Radio Frequency Identification; RFID) 통신, 이동 통신(Mobile Telecommunication), 메모리 카드 통신 등을 수행할 수 있다.
저장부(1030)는 프로세서(1010)에 의해 처리되는 데이터를 저장하거나, 동작 메모리(working memory)로서 작동할 수 있다. 저장부(1030)는 컴퓨팅 시스템(1000)을 부팅하기 위한 부트 이미지(boot image), 컴퓨팅 시스템(1000)을 구동하기 위한 상기 운영 체제와 관련된 파일 시스템(file system), 컴퓨팅 시스템(1000)과 연결되는 외부 장치와 관련된 장치 드라이버(device driver), 컴퓨팅 시스템(1000)에서 실행되는 상기 어플리케이션 등을 저장할 수 있다. 예를 들어, 저장부(1030)는 DRAM, SRAM 등과 같은 적어도 하나의 휘발성 메모리를 포함할 수도 있고, EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래시 메모리, PRAM, RRAM, NFGM, PoRAM, MRAM, FRAM 등과 같은 적어도 하나의 비휘발성 메모리를 포함할 수도 있다.
사용자 인터페이스(1050)는 키패드, 버튼, 마이크, 터치 스크린 등과 같은 하나 이상의 입력 장치, 및/또는 스피커, 디스플레이 장치 등과 같은 하나 이상의 출력 장치를 포함할 수 있다. 전원 공급부(1060)는 컴퓨팅 시스템(1000)의 동작 전압을 공급할 수 있다.
일 실시예에서, 컴퓨팅 시스템(1000)은 컴퓨터(computer), 노트북(laptop), 핸드폰(cellular), 스마트 폰(smart phone), MP3 플레이어, PDA(personal digital assistant), PMP(portable multimedia player), 디지털 TV, 디지털 카메라, 포터블 게임 콘솔(portable game console), 네비게이션(navigation) 기기, 웨어러블(wearable) 기기, IoT(internet of things) 기기, IoE(internet of everything) 기기, e-북(e-book), VR(virtual reality) 기기, AR(augmented reality) 기기 등과 같은 임의의 전자 기기 또는 휴대용 기기일 수 있다.
본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 방법 및 장치는, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
또한, 본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 방법 및 장치는, 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드 디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
따라서, 본 발명의 실시예들에 따른 비디오 영상을 3D 비디오 영상으로 변환하는 방법 및 장치는, 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 마더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서, 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및 (또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한, 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고, 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
본 발명의 실시예들은 비디오 영상을 3D 비디오 영상으로 변환하는 방법을 수행하는 임의의 전자 장치 및 시스템에 유용하게 이용될 수 있다. 예를 들어, 본 발명의 실시예들은 컴퓨터, 노트북, 핸드폰, 스마트 폰, MP3 플레이어, PDA, PMP, 디지털 TV, 디지털 카메라, 포터블 게임 콘솔, 네비게이션 기기, 웨어러블 기기, IoT 기기, IoE 기기, e-북, VR 기기, AR 기기 등과 같은 전자 기기에 더욱 유용하게 적용될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 것이다.

Claims (17)

  1. 비디오 영상을 3차원(이하 3D) 비디오 영상으로 변환하는 방법에 있어서,
    적어도 두 개 이상의 카메라를 이용하여 학습 비디오 영상을 촬영하는 단계;
    상기 학습 비디오 영상을 이용하여 3D 모델링된 학습 3D 비디오 영상을 생성하고, 상기 학습 비디오 영상과 상기 학습 3D 비디오 영상을 이용하여 인공 신경망 모델을 학습시키는 학습 단계;
    상기 학습된 인공 신경망 모델에 변환하고자 하는 비디오 영상을 입력하는 입력 단계;
    학습된 상기 인공 신경망 모델을 이용하여 상기 비디오 영상으로부터 3D 비디오 영상을 생성하는 영상 변환 단계; 및
    상기 3D 비디오 영상을 출력하는 출력 단계를 포함하는 비디오 영상을 3D 비디오 영상으로 변환하는 방법.
  2. 제1 항에 있어서,
    상기 비디오 영상은 하나의 카메라를 이용하여 촬영된 동영상인 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 방법.
  3. 제2 항에 있어서,
    상기 3D 비디오 영상은 상기 비디오 영상의 촬영 대상물의 3차원 위치 정보를 포함하는 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 방법.
  4. 제3 항에 있어서,
    상기 3D 비디오 영상의 시점(view point)은 사용자의 요구에 따라 다양하게 변화 가능한 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 방법.
  5. 제1 항에 있어서,
    상기 비디오 영상의 각각의 프레임 영상은 촬영 대상물의 2차원 좌표 정보를 포함하는 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 방법.
  6. 제5 항에 있어서,
    상기 3D 비디오 영상의 각각의 3D 프레임 영상은 상기 촬영 대상물의 3차원 좌표 정보를 포함하는 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 방법.
  7. 제1 항에 있어서,
    상기 학습 비디오 영상을 촬영하는 단계는, 제1 내지 제4 카메라들을 이용하여 학습용 촬영 대상물을 동시에 촬영하여, 상기 학습용 촬영 대상물을 서로 다른 각도에서 촬영한 학습 비디오 영상을 획득하는 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 방법.
  8. 제7 항에 있어서,
    상기 학습용 촬영 대상물을 중심으로, 인접하는 상기 제1 내지 제4 카메라들 간의 각도는 45도, 90도 또는 135도인 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 방법.
  9. 적어도 두 개 이상의 카메라를 이용하여 촬영된 학습 비디오 영상으로부터 3D 모델링된 학습 3D 비디오 영상을 생성하는 학습 3D 비디오 영상 생성부; 및
    상기 학습 비디오 영상과 상기 학습 3D 비디오 영상을 이용하여 학습된 인공 신경망 모델을 이용하여, 비디오 영상으로부터 3D 비디오 영상을 생성하는 영상 변환부를 포함하는 비디오 영상을 3D 비디오 영상으로 변환하는 장치.
  10. 제9 항에 있어서,
    상기 학습 비디오 영상은 제1 및 제2 카메라들을 이용하여 학습용 촬영 대상물을 동시에 촬영하여, 상기 학습용 촬영 대상물을 서로 다른 각도에서 촬영한 제1 및 제2 학습 비디오 영상들을 획득하는 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 장치.
  11. 제10 항에 있어서,
    상기 비디오 영상은 하나의 카메라를 이용하여 촬영된 동영상인 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 장치.
  12. 제9 항에 있어서,
    복수의 프레임 영상들을 포함하는 상기 비디오 영상을 수신하는 입력 버퍼; 및
    상기 3D 비디오 영상을 저장 및 출력하는 출력 버퍼를 더 포함하는 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 장치.
  13. 제9 항에 있어서,
    상기 학습된 인공 신경망 모델의 파라미터들을 저장하는 파라미터 버퍼; 및
    상기 파라미터들을 저장하는 메모리를 더 포함하는 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 장치.
  14. 제9 항에 있어서,
    상기 비디오 영상의 각각의 프레임 영상은 촬영 대상물의 2차원 위치 정보를 포함하고,
    상기 3D 비디오 영상의 각각의 프레임 영상은 상기 촬영 대상물의 3차원 위치 정보를 포함하는 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 장치.
  15. 복수의 프레임 영상을 포함하는 비디오 영상을 수신하는 입력 버퍼;
    상기 비디오 영상을 인공 신경망 모델을 이용하여 복수의 3D 프레임 영상을 포함하는 3D 비디오 영상으로 변환하는 영상 변환부를 포함하는 프로세싱 소자; 및
    상기 3D 비디오 영상을 출력하는 출력 버퍼를 포함하는 비디오 영상을 3D 비디오 영상으로 변환하는 장치.
  16. 제15 항에 있어서,
    상기 프레임 영상은 촬영 대상물의 2차원 위치 정보를 포함하고,
    상기 3D 프레임 영상은 상기 촬영 대상물의 3차원 위치 정보를 포함하는 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 장치.
  17. 제16 항에 있어서,
    상기 인공 신경망 모델은
    적어도 두 개 이상의 카메라를 이용하여 학습 비디오 영상 및 상기 학습 비디오 영상을 이용하여 3D 모델링된 학습 3D 비디오 영상의 학습 데이터 세트를 이용하여 학습(training)된 것을 특징으로 하는 비디오 영상을 3D 비디오 영상으로 변환하는 장치.
KR1020180146674A 2018-11-23 2018-11-23 딥러닝 기술을 이용하여 비디오 영상을 3d 비디오 영상으로 변환하는 방법 및 장치 KR102250163B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180146674A KR102250163B1 (ko) 2018-11-23 2018-11-23 딥러닝 기술을 이용하여 비디오 영상을 3d 비디오 영상으로 변환하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180146674A KR102250163B1 (ko) 2018-11-23 2018-11-23 딥러닝 기술을 이용하여 비디오 영상을 3d 비디오 영상으로 변환하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200063367A true KR20200063367A (ko) 2020-06-05
KR102250163B1 KR102250163B1 (ko) 2021-05-10

Family

ID=71088571

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180146674A KR102250163B1 (ko) 2018-11-23 2018-11-23 딥러닝 기술을 이용하여 비디오 영상을 3d 비디오 영상으로 변환하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102250163B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598778A (zh) * 2020-08-28 2021-04-02 国网陕西省电力公司西咸新区供电公司 一种基于改进的纹理贴图算法的vr三维重建技术
KR102593135B1 (ko) * 2022-05-20 2023-10-25 고려대학교산학협력단 딥러닝 기술 기반 3차원 공간 모델링 및 시점 합성을 통해 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법과 이를 위한 장치
WO2024130145A1 (en) * 2022-12-15 2024-06-20 Schlumberger Technology Corporation Unlocking lightweight fast 3d visualization with neural radiance representations
WO2024191234A1 (en) * 2023-03-14 2024-09-19 Samsung Electronics Co., Ltd. Method and apparatus for processing an image

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090065965A (ko) * 2007-12-18 2009-06-23 주식회사 케이티 3차원 영상 모델 생성 방법 및 장치, 이를 이용한 영상인식 방법 및 장치 그리고 상기 방법들을 수행하는프로그램이 기록된 기록 매체
KR20180108501A (ko) * 2017-03-24 2018-10-04 (주)제이엘케이인스펙션 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090065965A (ko) * 2007-12-18 2009-06-23 주식회사 케이티 3차원 영상 모델 생성 방법 및 장치, 이를 이용한 영상인식 방법 및 장치 그리고 상기 방법들을 수행하는프로그램이 기록된 기록 매체
KR20180108501A (ko) * 2017-03-24 2018-10-04 (주)제이엘케이인스펙션 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598778A (zh) * 2020-08-28 2021-04-02 国网陕西省电力公司西咸新区供电公司 一种基于改进的纹理贴图算法的vr三维重建技术
CN112598778B (zh) * 2020-08-28 2023-11-14 国网陕西省电力公司西咸新区供电公司 一种基于改进的纹理贴图算法的vr三维重建方法
KR102593135B1 (ko) * 2022-05-20 2023-10-25 고려대학교산학협력단 딥러닝 기술 기반 3차원 공간 모델링 및 시점 합성을 통해 전문 촬영 기법이 적용된 고품질 동영상을 생성하는 방법과 이를 위한 장치
WO2024130145A1 (en) * 2022-12-15 2024-06-20 Schlumberger Technology Corporation Unlocking lightweight fast 3d visualization with neural radiance representations
WO2024191234A1 (en) * 2023-03-14 2024-09-19 Samsung Electronics Co., Ltd. Method and apparatus for processing an image

Also Published As

Publication number Publication date
KR102250163B1 (ko) 2021-05-10

Similar Documents

Publication Publication Date Title
US11610331B2 (en) Method and apparatus for generating data for estimating three-dimensional (3D) pose of object included in input image, and prediction model for estimating 3D pose of object
JP7096925B2 (ja) 直方体検出のための深層機械学習システム
KR102250163B1 (ko) 딥러닝 기술을 이용하여 비디오 영상을 3d 비디오 영상으로 변환하는 방법 및 장치
WO2021093453A1 (zh) 三维表情基的生成方法、语音互动方法、装置及介质
CN110135226B (zh) 表情动画数据处理方法、装置、计算机设备和存储介质
US11559887B2 (en) Optimizing policy controllers for robotic agents using image embeddings
KR102353637B1 (ko) 골프 동작 분석 방법 및 장치
JP2022503647A (ja) クロスドメイン画像変換
CN112614213A (zh) 人脸表情确定方法、表情参数确定模型、介质及设备
CN111028317B (zh) 虚拟对象的动画生成方法、装置、设备及存储介质
EP3987443A1 (en) Recurrent multi-task convolutional neural network architecture
JP2021524628A (ja) 照明推定
CN115244495A (zh) 针对虚拟环境运动的实时式样
CN116977522A (zh) 三维模型的渲染方法、装置、计算机设备和存储介质
KR20200036093A (ko) 비디오 영상 내의 행동 인식 방법 및 장치
US8831919B2 (en) Physics-inspired up sampling for cloth simulation
WO2022179603A1 (zh) 一种增强现实方法及其相关设备
US11373329B2 (en) Method of generating 3-dimensional model data
US11188787B1 (en) End-to-end room layout estimation
CN115018959A (zh) 三维虚拟模型的驱动处理方法、装置、设备和存储介质
CN110008873B (zh) 面部表情捕捉方法、系统及设备
CN112527104A (zh) 确定参数确定方法、装置、设备及存储介质
WO2023277043A1 (ja) 情報処理装置
JP2023098597A (ja) 映像処理方法及び装置
WO2022009821A1 (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant