KR20240049106A - 동적 3차원 공간에 대한 2차원 장면의 복원 장치 및 방법 - Google Patents
동적 3차원 공간에 대한 2차원 장면의 복원 장치 및 방법 Download PDFInfo
- Publication number
- KR20240049106A KR20240049106A KR1020220188992A KR20220188992A KR20240049106A KR 20240049106 A KR20240049106 A KR 20240049106A KR 1020220188992 A KR1020220188992 A KR 1020220188992A KR 20220188992 A KR20220188992 A KR 20220188992A KR 20240049106 A KR20240049106 A KR 20240049106A
- Authority
- KR
- South Korea
- Prior art keywords
- feature extraction
- feature
- point
- target
- data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 22
- 238000000605 extraction Methods 0.000 claims abstract description 212
- 239000000284 extract Substances 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims description 35
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 23
- 238000009877 rendering Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 239000013598 vector Substances 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000009499 grossing Methods 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000011365 complex material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
일 실시예에 따른 전자 장치는 지점 정보(point information) 및 시간 정보(time information)로부터 복수의 특징 추출 모델들로부터 복수의 특징 데이터들을 추출하고, 복수의 특징 데이터들의 보간에 기초하여 시공간 특징 데이터(spacetime feature data)를 획득하며, 상기 시공간 특징 데이터 및 뷰 방향으로부터 상기 장면 정보 추정 모델에 기초하여 상기 타겟 시점의 상기 타겟 지점에 대한 장면 정보를 생성할 수 있다.
Description
아래의 개시는 동적 3차원 공간에 대한 2차원 장면의 복원에 관한 것이다.
사실적인 이미지와 비디오의 합성은 컴퓨터 그래픽의 기본 목표이다. 복잡한 재질 및 전역 조명 처리를 포함하여 실제 카메라의 이미지 형성 모델을 모방하는 방법과 표현이 개발된다. 이러한 방법은 물리 법칙을 기반으로 하며 합성을 위해 광원에서 가상 카메라로의 빛 전달을 시뮬레이션한다. 이를 위해 렌더링 프로세스에서 장면의 모든 물리적 매개변수가 결정되어야 한다. 예를 들어 이러한 매개변수에는 반사도 또는 불투명도와 같은 재료 속성 및 장면 형상에 대한 정보가 포함된다. 이러한 정보가 주어지면 최신 광선 추적 기술은 사실적인 이미지를 생성할 수 있다. 물리 기반 렌더링 방법 외에도 실제 이미지 형성 모델에 근접한, 수학적 근사에 기초한, 다양한 기술이 있다.
일 실시예에 따른 전자 장치는, 제1 특징 추출 모델, 제2 특징 추출 모델, 및 장면 정보 추정 모델을 저장한 메모리; 지점 정보(point information) 및 시간 정보(time information)로부터 상기 제1 특징 추출 모델에 기초하여 상기 시간 정보에 대응하는 타겟 시점(target time instant)의 3차원 공간 내 상기 지점 정보에 의해 지시되는 타겟 지점에 대한 제1 특징 데이터를 추출하고, 상기 지점 정보 및 상기 시간 정보로부터 상기 제2 특징 추출 모델에 기초하여 상기 타겟 시점의 상기 3차원 공간 내 상기 타겟 지점에 대한 제2 특징 데이터를 추출하며, 상기 제1 특징 데이터 및 상기 제2 특징 데이터에 기초하여 시공간 특징 데이터(spacetime feature data)를 획득하고, 상기 시공간 특징 데이터 및 뷰 방향으로부터 상기 장면 정보 추정 모델에 기초하여 상기 타겟 시점의 상기 타겟 지점에 대한 장면 정보를 생성하는 프로세서를 포함할 수 있다.
상기 프로세서는, 상기 제1 특징 데이터 및 상기 제2 특징 데이터에 기초한 보간(interpolation)을 수행하고, 상기 보간의 결과에 기초하여 상기 시공간 특징 데이터를 획득할 수 있다.
상기 제1 특징 추출 모델은, 제1 기준 시점의 3차원 공간을 위해 트레이닝된 모델이고, 상기 제2 특징 추출 모델은, 상기 제1 기준 시점과 다른 제2 기준 시점의 3차원 공간을 위해 트레이닝된 모델일 수 있다.
상기 프로세서는, 제1 기준 시점, 제2 기준 시점, 및 상기 타겟 시점에 기초하여 상기 제1 특징 데이터 및 상기 제2 특징 데이터를 보간한 것에 기초하여 상기 시공간 특징 데이터를 결정할 수 있다.
상기 프로세서는, 상기 제1 기준 시점 및 상기 타겟 시점에 기초하여 결정된 제1 가중치를 상기 제2 특징 데이터에 적용하고, 상기 제2 기준 시점 및 상기 타겟 시점에 기초하여 결정된 제2 가중치를 상기 제1 특징 데이터에 적용할 수 있다.
상기 프로세서는, 상기 제1 기준 시점 및 상기 타겟 시점 간의 시간 차이에 기초하여 제1 가중치를 결정하고, 상기 제2 기준 시점 및 상기 타겟 시점 간의 시간 차이에 기초하여 제2 가중치를 결정할 수 있다.
상기 프로세서는, 상기 제1 특징 데이터 및 상기 제2 특징 데이터에 기초하여 기본 특징 보간 데이터를 생성하고, 상기 특징 보간 데이터 및 추가 LOD(level of detail)에 대응하는 추가 특징 보간 데이터에 기초하여 상기 시공간 특징 데이터를 결정할 수 있다.
상기 프로세서는, 상기 기본 특징 보간 데이터 및 상기 추가 특징 보간 데이터를 결합(concatenate)함으로써 상기 시공간 특징 데이터를 결정할 수 있다.
상기 프로세서는, 상기 추가 LOD에 대응하는 복수의 추가 특징 추출 모델들에 기초하여, 상기 타겟 시점 및 상기 타겟 지점에 대응하는 추가 특징 데이터들을 추출하고, 상기 추출된 추가 특징 데이터들에 기초하여 상기 추가 특징 보간 데이터를 생성할 수 있다.
상기 프로세서는, 상기 복수의 추가 특징 추출 모델들 중 상기 타겟 시점에 기초하여 두 추가 특징 추출 모델들을 선택하고, 상기 선택된 두 추가 특징 추출 모델들을 이용하여 상기 추가 특징 데이터들을 추출할 수 있다.
상기 프로세서는, 셋 이상의 기본 특징 추출 모델들 중으로부터 상기 제1 특징 추출 모델 및 상기 제2 특징 추출 모델을 선택할 수 있다.
상기 프로세서는, 상기 셋 이상의 기본 특징 추출 모델들 중 상기 타겟 시점에 기초하여 상기 제1 특징 추출 모델 및 상기 제2 특징 추출 모델을 선택할 수 있다.
상기 프로세서는, 상기 셋 이상의 기본 특징 추출 모델들에 대응하는 기준 시점들과 상기 타겟 시점 간의 비교에 기초하여, 상기 셋 이상의 기본 특징 추출 모델들로부터 상기 제1 특징 추출 모델 및 상기 제2 특징 추출 모델을 선택할 수 있다.
상기 프로세서는, 상기 셋 이상의 기본 특징 추출 모델들에 대응하는 기준 시점들 중 상기 타겟 시점에 시간적으로 인접한 제1 기준 시점에 대응하는 상기 제1 특징 추출 모델 및 제2 기준 시점에 대응하는 상기 제2 특징 추출 모델을 선택할 수 있다.
상기 프로세서는, 5개의 기본 특징 추출 모델들로부터 상기 제1 특징 추출 모델 및 상기 제2 특징 추출 모델을 선택하고, 20개의 추가 특징 추출 모델들 중으로부터 2개의 추가 특징 추출 모델들을 선택할 수 있다.
상기 제1 특징 추출 모델 및 상기 제2 특징 추출 모델은, 뉴럴 네트워크(neural network) 또는 그리드 기반 표현(grid-based representation)를 포함하는 기계 학습 모델(machine learning model)일 수 있다.
상기 프로세서는, 뷰 포인트(view point)으로부터 뷰 방향(view direction)을 따른 지점들에 대한 복수의 장면 정보들을 생성하고, 상기 생성된 복수의 장면 정보들에 기초하여, 상기 타겟 시점의 3차원 공간을 상기 뷰 위치에서 바라보는 2차원 장면 중 상기 뷰 방향에 대응하는 픽셀 위치의 픽셀 값을 결정할 수 있다.
상기 프로세서는, 상기 2차원 장면에 포함된 모든 픽셀들의 픽셀 값들을 결정함으로써 상기 2차원 장면에 대응하는 2차원 이미지를 생성할 수 있다.
일 실시예에 따른, 프로세서로 구현되는 방법에 있어서, 지점 정보(point information) 및 시간 정보(time information)로부터, 제1 특징 추출 모델에 기초하여, 상기 시간 정보에 대응하는 타겟 시점(target time instant)의 3차원 공간 내 상기 지점 정보에 의해 지시되는 타겟 지점에 대한 제1 특징 데이터를 추출하는 단계; 상기 지점 정보 및 상기 시간 정보로부터, 제2 특징 추출 모델에 기초하여, 상기 타겟 시점의 상기 3차원 공간 내 상기 타겟 지점에 대한 제2 특징 데이터를 추출하는 단계; 상기 제1 특징 데이터 및 상기 제2 특징 데이터에 기초하여 시공간 특징 데이터(spacetime feature data)를 획득하는 단계; 상기 시공간 특징 데이터 및 뷰 방향으로부터, 장면 정보 추정 모델에 기초하여, 상기 타겟 시점의 상기 타겟 지점에 대한 장면 정보를 생성하는 단계를 포함할 수 있다.
도 1은 일 실시예에 따른 장면 복원 방법을 도시한 흐름도이다.
도 2는 일 실시예에 따른 장면 복원 모델을 도시한 도면이다.
도 3은 일 실시예에 따른 특징 추출 모델과 장면 정보 추정 모델을 도시한 도면이다.
도 4는 일 실시예에 따른 특징 보간 데이터의 결정을 도시한 도면이다.
도 5는 일 실시예에 따른 추가 LOD(level of detail)에 따른 특징 보간 데이터를 생성하는 것을 도시한 도면이다.
도 6은 일 실시예에 따른 특징 추출 네트워크 그룹의 트레이닝을 도시한 도면이다.
도 7은 일 실시예에 따른 특징 추출 모델의 다른 예시를 도시한 도면이다.
도 8 및 도 9는 일 실시예에 따른 장면 복원 장치의 구성을 도시한 블록도이다.
도 2는 일 실시예에 따른 장면 복원 모델을 도시한 도면이다.
도 3은 일 실시예에 따른 특징 추출 모델과 장면 정보 추정 모델을 도시한 도면이다.
도 4는 일 실시예에 따른 특징 보간 데이터의 결정을 도시한 도면이다.
도 5는 일 실시예에 따른 추가 LOD(level of detail)에 따른 특징 보간 데이터를 생성하는 것을 도시한 도면이다.
도 6은 일 실시예에 따른 특징 추출 네트워크 그룹의 트레이닝을 도시한 도면이다.
도 7은 일 실시예에 따른 특징 추출 모델의 다른 예시를 도시한 도면이다.
도 8 및 도 9는 일 실시예에 따른 장면 복원 장치의 구성을 도시한 블록도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시예에 따른 장면 복원 방법을 도시한 흐름도이다. 도 2는 일 실시예에 따른 장면 복원 모델을 도시한 도면이다.
일 실시예에 따른 전자 장치(예: 장면 복원 장치)는 타겟 시점(target time instant)의 3차원 공간을 임의의 뷰 포인트에서 임의의 시야각으로 바라보는 장면(예: 2차원 장면)을 나타내는 2차원 이미지를 생성 및/또는 복원할 수 있다. 뷰 포인트는, 예를 들어, 임의의 시야각(field of view, FOV)를 가지는 카메라(예: 가상의 카메라)가 2차원 이미지에 대응하는 장면(scene)을 캡쳐하는 것으로 해석되는 위치일 수 있다. 2차원 이미지에 포함된 각 픽셀의 픽셀 값은, 뷰 포인트로부터 해당 픽셀에 대응하는 뷰 방향을 따른 지점들의 장면 정보들에 기초하여 결정될 수 있다. 임의의 픽셀에 대응하는 뷰 방향은 뷰 포인트로부터 해당 픽셀을 향하는 방향을 나타낼 수 있다.
장면 정보(290)는, 타겟 시점의 3차원 공간 내 타겟 지점(target point)을 뷰 방향으로 바라본 장면 성분을 표현하는 데이터로서, 예시적으로, 뉴럴 장면 표현(Neural Scene Representation, NSR) 데이터를 포함할 수 있다. NSR 데이터는 예를 들어, NeRF(Neural Radiance Field) 데이터를 포함할 수 있다. NSR 데이터는 3차원 공간의 지점 별 및 뷰 방향 별 색상 정보 및 볼륨 밀도 정보(volume density information)를 포함할 수 있다. 색상 정보는 색 공간을 따르는 색상 값들(예: RGB 색공간을 따르는 적색 값, 녹색 값 및 청색 값)을 포함할 수 있다. 임의의 지점의 볼륨 밀도 σ는 해당 지점의 극미한 입자(infinitesimal particle)에서 광선(ray)이 종료될 가능성(예: 미분 확률(differential probability))으로 해석될 수 있다. 후술하겠으나, 타겟 지점의 색상 값(예: RGB 값)은 뷰 방향에 의존할 수 있고, 볼륨 밀도는 뷰 방향과 독립적일 수 있다. 다만, NSR 데이터를 전술한 바로 한정하는 것은 아니고 설계에 따라 달라질 수 있다.
일 실시예에 따르면, 장면 복원 모델(200)은 특징 추출 모델들(211, 212) 및 장면 정보 추정 모델(250)을 포함할 수 있다. 각 지점에 대응하는 장면 정보(290)는 장면 복원 모델(200)에 기초하여 생성될 수 있다. 특징 추출 모델들(211, 212) 및 장면 정보 추정 모델(250)을 이용한 장면 정보(290)의 추정은 아래에서 설명된다. 참고로, 전자 장치는 장면 복원 모델(200) 중 제1 특징 추출 모델(211) 및 제2 특징 추출 모델(212)의 입력 데이터(280)로서 타겟 지점에 대한 지점 정보 및 3차원 공간의 시점을 지시하는 시간 정보를 이용할 수 있다.
우선, 단계(110)에서 전자 장치는 지점 정보(point information) 및 시간 정보(time information)로부터, 제1 특징 추출 모델(211)에 기초하여, 타겟 시점(target time instant)의 타겟 지점에 대한 제1 특징 데이터(231)를 추출할 수 있다. 타겟 지점은 지점 정보에 의해 지시되는 3차원 공간 내 지점을 나타낼 수 있다. 지점 정보는 3차원 공간 내 타겟 지점의 위치(예: 공간적 정보)를 포함할 수 있다. 타겟 시점은 시간 정보에 대응하는 시점을 나타낼 수 있다. 시간 정보는 시간에 따라 변화하는 3차원 공간에 대해 복원 및/또는 캡처하고자 하는 시점을 지시하는 정보(예: 시간적 정보)일 수 있다. 제1 특징 추출 모델(211)은 타겟 시점 및 타겟 지점에 대응하는 제1 특징 데이터(231)를, 제1 기준 시점을 기준으로, 추출하도록 설계 및 트레이닝된 모델로서, 예시적으로, 뉴럴 네트워크(219)를 포함할 수 있다. 제1 특징 데이터(231)는 타겟 시점 및 타겟 지점이 제1 기준 시점을 기준으로 추상화된 데이터로서, 예시적으로 특징 벡터를 포함할 수 있다.
단계(120)에서 전자 장치는 지점 정보 및 시간 정보로부터, 제2 특징 추출 모델(212)에 기초하여, 타겟 시점의 3차원 공간 내 타겟 지점에 대한 제2 특징 데이터(232)를 추출할 수 있다. 제2 특징 추출 모델(212)은, 전술한 제1 특징 추출 모델(211)과 유사하게, 타겟 시점 및 타겟 지점에 대응하는 제2 특징 데이터(232)를 제2 기준 시점을 기준으로 추출하도록 설계 및 트레이닝된 모델로서, 예시적으로, 뉴럴 네트워크를 포함할 수 있다. 제2 특징 추출 모델(212)의 뉴럴 네트워크는 다른 모델(예: 제1 특징 추출 모델(211))의 파라미터(예: 연결 가중치)와는 다른 파라미터를 가질 수 있다. 제2 특징 데이터(232)는 타겟 시점 및 타겟 지점이 제2 기준 시점을 기준으로 추상화된 데이터로서, 예시적으로 특징 벡터를 포함할 수 있다.
본 명세서에서 뉴럴 네트워크(예: 뉴럴 네트워크(219))는 레이어를 포함하고, 각 레이어는 노드를 포함할 수 있다. 노드는 활성화 함수(activation function)에 기초하여 결정되는 노드 값을 가질 수 있다. 임의의 레이어의 노드는 다른 레이어의 노드(예: 다른 노드)와 연결 가중치(connection weight)를 갖는 링크(예: 연결선(connection edge))을 통해 연결될 수 있다. 노드의 노드 값은 링크를 통해 다른 노드들로 전파될 수 있다. 예를 들어, 뉴럴 네트워크의 추론 동작에서는, 노드 값들이 이전 레이어로부터 다음 레이어의 방향으로 순전파(forward propagate)될 수 있다. 노드와 연결선을 통해 연결된 다음 레이어의 노드(예: 다음 노드)로, 해당 노드의 노드 값이 전파(예: 순전파)될 수 있다. 예를 들어, 노드는 연결선을 통해 연결된 이전 노드(예: 복수의 노드들)로부터 연결 가중치에 의해 가중된(weighted) 값을 수신할 수 있다. 노드의 노드 값은 이전 노드들로부터 수신된 가중된 값들의 합(예: 가중 합)에 활성화 함수를 적용한 것에 기초하여 결정될 수 있다. 뉴럴 네트워크의 파라미터는 예시적으로 전술한 연결 가중치를 포함할 수 있다. 뉴럴 네트워크의 파라미터는 후술하는 목적 함수 값이 타겟팅된 방향(예: 손실이 최소화되는 방향)으로 변경되도록 업데이트될 수 있다. 목적 함수는 후술한다.
제1 기준 시점(first reference time instant)과 제2 기준 시점은 서로 다른 시점을 나타낼 수 있다. 3차원 공간이 임의의 시간 구간에 대해 정의된 경우, 시간 구간은 N개의 시간 프레임들로 구분될 수 있고, 최초 시점(예: t0)부터 마지막 시점(예: tN-1) 사이의 시간으로 표현될 수 있다. 여기서, N은 2이상의 정수일 수 있다. 예시적으로, 타겟 시점은 최초 시점(예: t0)부터 마지막 시점(예: tN-1) 사이의 시점으로서 i번째 시간 프레임(예: ti)을 나타낼 수 있다. 도 4에서 후술하겠으나, 본 명세서에서 i번째 시간 프레임을 지시하는 값 ti은 전체 시간 구간 대비 i번째 시점의 비율 또는 총 프레임 개수 대비 i번째 시간 프레임의 비율로서, 0 이상 1 이하일 수 있다. 최초 시점을 지시하는 값 t0=0, 마지막 시점을 지시하는 값 tN-1=1일 수 있다.
3차원 공간의 지점들은 정의된 시간 구간 동안 변화(예: 이동)할 수 있다. 예시적으로, 제1 기준 시점은 3차원 공간의 최초 시점(예: t0), 제2 기준 시점은 3차원 공간의 마지막 시점(예: tN-1)을 나타낼 수 있다. 후술하겠으나, 제1 특징 추출 모델(211) 및 제2 특징 추출 모델(212)의 특징 데이터들이 기준 시점들과 타겟 시점 간의 비교에 따라 결정되는 가중치에 기초하여 가중합될 수 있다. 가중합 결과에 기초한 목적 함수 값에 의해 특징 추출 모델들(211, 212)(예: 제1 특징 추출 모델(211) 및 제2 특징 추출 모델(212))이 트레이닝될 수 있다. 따라서 각 특징 추출 모델은 기준 시점 대비 타겟 시점의 시간적 관계 및 타겟 지점을 추상화한 특징 데이터를 출력할 수 있다.
단계(130)에서 전자 장치는 제1 특징 데이터(231) 및 제2 특징 데이터(232)에 기초하여 시공간 특징 데이터(spacetime feature data)(205)를 획득할 수 있다. 시공간 특징 데이터(205)는 타겟 시점 및 타겟 지점이 추상화된 특징 데이터로서, 예시적으로, 특징 벡터일 수 있다. 전자 장치는 제1 특징 데이터(231) 및 제2 특징 데이터(232)의 보간 결과에 기초하여 시공간 특징 데이터(205)를 획득할 수 있다. 특징 데이터들의 보간은 하기 도 4에서 설명한다.
단계(140)에서 전자 장치는 시공간 특징 데이터(205) 및 뷰 방향으로부터, 장면 정보 추정 모델(250)에 기초하여, 타겟 시점의 타겟 지점에 대한 장면 정보(290)를 생성할 수 있다. 전자 장치는 장면 정보(290)로서, 해당 지점의 색상 정보(예: 색상 값) 및 볼륨 밀도(예: volume density)를 결정할 수 있다. 장면 정보 추정 모델(250)은 시공간 특징 데이터(205) 및 뷰 방향으로부터 장면 정보(290)(예: NSR 데이터)를 출력하도록 설계 및 트레이닝된 모델로서, 예를 들어, 뉴럴 네트워크를 포함할 수 있다. 장면 정보 추정 모델(250)의 뉴럴 네트워크는 특징 추출 모델들(211, 212)의 뉴럴 네트워크와는 다른 파라미터(예: 연결 가중치)를 가질 수 있다. 전술한 바와 같이 시공간 특징 데이터(205)는 타겟 시점 및 타겟 지점이 추상화된 특징 데이터이므로, 장면 정보 추정 모델(250)은 시공간 특징 데이터(205) 및 뷰 방향이 입력되는 것에 응답하여 타겟 시점 및 타겟 지점에 대응하는 장면 정보(290)를 출력할 수 있다. 도 3에서 후술하겠으나, 전자 장치는 전술한 지점 정보 및 시간 정보로부터 장면 정보 추정 모델(250) 일부분(예: 볼륨 밀도 추정 네트워크)에 기초하여 타겟 지점에 대한 볼륨 밀도 정보 및 임베딩 데이터를 추정할 수 있다. 전자 장치는 임베딩 데이터 및 뷰 방향으로부터 장면 정보 추정 모델(250)의 다른 부분(예: 색상 추정 네트워크)에 기초하여 뷰 방향에 따른 타겟 지점의 색상 정보를 추정할 수 있다. 볼륨 밀도 정보 및 색상 정보는 후술하는 바와 같이 2차원 장면 이미지의 픽셀 값(예: 픽셀의 색상 값)을 결정하는데 사용되므로, 트레이닝이 완료된 장면 정보 추정 모델(250)은 시간 별 3차원 공간을 다양한 뷰 방향에서 바라본 장면들을 학습한 것으로 해석될 수 있다.
일 실시예에 따르면, 전자 장치는 전술한 단계들(110 내지 140)에서 획득된 장면 정보들에 기초하여 2차원 이미지를 생성할 수 있다. 예를 들어, 전자 장치는 뷰 포인트(view point)으로부터 뷰 방향(view direction)을 따른 지점들에 대한 복수의 장면 정보들을 생성할 수 있다. 전자 장치는 생성된 복수의 장면 정보들에 기초하여, 2차원 장면 중 뷰 방향에 대응하는 픽셀 위치의 픽셀 값을 결정할 수 있다. 2차원 장면은 타겟 시점의 3차원 공간을 뷰 위치에서 바라본 장면일 수 있다. 전자 장치는 뷰 방향을 따라 획득된 장면 정보들에 대해 볼륨 렌더링을 수행함으로써, 해당 뷰 방향에 대응하는 픽셀 값을 결정할 수 있다.
예를 들어, 2차원 이미지(예: 장면 이미지)의 각 픽셀마다 뷰 방향이 정의될 수 있다. 전자 장치는 임의의 뷰 포인트(view point)으로부터 2차원 이미지의 각 픽셀로 향하는 방향을 뷰 방향으로 정의할 수 있다. 전자 장치는 2차원 이미지의 각 픽셀 별로 해당 픽셀에 대응하는 뷰 방향을 결정할 수 있다. 전자 장치는 3차원 공간에서 뷰 방향을 따르는 지점들(예: 샘플 지점)을 샘플링할 수 있다. 전자 장치는 뷰 방향 상의 모든 샘플 지점들에 대한 출력 값(예: 장면 정보(290)로서 NSR 데이터))을 장면 복원 모델(200)(예: 제1 특징 추출 모델(211), 제2 특징 추출 모델(212), 및 장면 정보 추정 모델(250))에 기초한 뉴럴 네트워크 연산을 통해서 계산할 수 있다. 참고로, 도 1에 도시된 방법에서는 샘플 지점들 중 임의의 지점(예: 타겟 지점)에 대한 장면 정보(290)의 계산이 설명되었다. 전자 장치는 뷰 방향 상의 각 타겟 지점의 3차원 공간 내 위치를 지시하는 지점 정보를 생성할 수 있다.
전자 장치는 2차원 장면 이미지의 같은 픽셀을 위해 계산된 장면 정보들을 이용하여 볼륨 렌더링을 수행할 수 있다. 볼륨 렌더링은 뷰 방향을 따른 색상 정보 및 볼륨 밀도를 누적하는 동작을 포함할 수 있다. 전자 장치는, 뷰 방향을 따르는 지점들에 대해 계산된 색상 정보와 볼륨 밀도를 누적함으로써 뷰 방향에 대응하는 픽셀의 픽셀 정보(예: 픽셀의 색상 값)를 결정할 수 있다.
전자 장치는 전술한 픽셀 정보의 결정을 반복함으로써 2차원 이미지를 생성할 수 있다. 예를 들어, 전자 장치는 2차원 장면에 포함된 모든 픽셀들의 픽셀 값들을 결정함으로써 2차원 장면에 대응하는 2차원 이미지를 생성할 수 있다. 예를 들어, 전자 장치는 2차원 이미지의 픽셀 별로 볼륨 렌더링을 수행함으로써, 2차원 이미지에 포함된 픽셀들의 픽셀 값들(예: 픽셀의 색상 값)을 결정할 수 있다. 전자 장치는 모든 픽셀에 대한 픽셀 값들을 획득함으로써, 2차원 이미지를 생성할 수 있다.
일 실시예에 따르면, 정적 물체(object)의 3차원 렌더링을 목표로 하는 NeRF 프레임워크(framework)가 동적 장면으로 확장될 수 있다. 동적 장면은, 시간 흐름에 따라 3차원 공간 내 지점들이 변화하는 장면일 수 있다. 동적 장면의 표현을 위한 NeRF 프레임워크와 관련하여, 제1 비교 실시예에서는 3차원 공간 내 지점을 지시하는 좌표(예: (x,y,z))에 시간 값(예: t)이 입력으로 단순 추가되어 학습될 수 있다. 제2 비교 실시예에서는 선행 프레임으로부터 후속 프레임으로 움직이는 3차원 장면 플로우(scene flow)가 추정될 수 있다. 제2 비교 실시예는 각 3차원 좌표의 프레임 별 이동이 추정될 수 있다. 제3 비교 실시예에서는 캐노니컬 프레임(canonical frame)이 구축되고, 각각의 프레임 이미지가 캐노니컬 프레임으로 매핑될 수 있다. 전술된 제1 비교 실시예의 장면 복원 성능은 낮으며, 제2 비교 실시예 및 제3 비교 실시예는 추가적인 학습 파라미터의 추정이 필요하고 모든 3차원 지점 및 주어진 시간 구간 내 모든 프레임의 변화를 커버할 수 없어 부정확한 장면 복원을 야기할 수 있다. 비교 실시예들에서는 3차원 지점을 입력으로하고 렌더링된 영상과 학습데이터 영상의 비교를 통한 엔두-투-엔드(end-to-end) 학습이 수행되는데, 중간 과정(예: 장면 플로우 또는 캐노니컬 형태의 학습)의 정확도가 보장되지 않는다.
일 실시예에 따른 전자 장치는 간단한 네트워크 구조로 학습된 장면 복원 모델(200)을 통해 전술된 비교 실시예들보다 동적 장면의 복원에 있어서 우수한 3차원 뉴럴 렌더링 성능을 나타낼 수 있다.
도 3은 일 실시예에 따른 특징 추출 모델과 장면 정보 추정 모델을 도시한 도면이다.
일 실시예에 따른 전자 장치는 입력 데이터(380)로부터 장면 복원 모델(300)에 기초하여 장면 정보(390)를 추정할 수 있다.
입력 데이터(380)는 지점 정보(381), 시간 정보(382), 뷰 방향(383), 및 잠재 외형 정보(384)를 포함할 수 있다. 입력 데이터(380)는 쿼리 입력이라고도 나타낼 수 있다. 뷰 방향(383)은 합성 및/또는 복원하고자 하는 2차원 장면(370)을 바라보는 시점(view point)으로부터 타겟 픽셀에 대응하는 지점들을 통과하는 방향을 나타낼 수 있다. 2차원 장면(370)은 타겟 시점의 3차원 공간(360)을 뷰 포인트(301)에서 시야각으로 캡처한 장면으로서, 2차원 장면(370)의 지점(371)은 2차원 이미지의 픽셀에 대응할 수 있다. 도 3에 도시된 예시에서, 지점 정보(381)는 3차원 공간(360) 내에서 타겟 지점 X를 지시하는 (x, y, z)의 좌표를 포함하고, 뷰 방향(383)은 뷰 포인트(301)로부터 타겟 지점 X를 향하는 (, )의 방향 정보를 포함할 수 있다. (x, y, z)는 임의의 원점(origin point)을 기준으로 하는 카테시안 좌표계를 따르는 좌표를 나타낼 수 있고, (, )는 각각 임의의 두 기준축들(reference axes)(예: z축의 양의 방향 및 x축의 양의 방향) 및 뷰 방향(383) 간에 형성되는 각도들을 나타낼 수 있다.
일 실시예에 따르면 전자 장치는 제1 특징 추출 모델에 기초하여 지점 정보(381) 및 시간 정보(382)로부터 제1 특징 데이터를 추출할 수 있다. 제1 특징 추출 모델은, 제1 기준 시점의 3차원 공간(360)의 지점에 대한 특징 추출을 위해 설계 및 트레이닝된 모델일 수 있다. 뉴럴 네트워크를 포함하는 제1 특징 추출 모델은 제1 특징 추출 네트워크(311)라고도 나타낼 수 있다. 전자 장치는 제2 특징 추출 모델에 기초하여 지점 정보(381) 및 시간 정보(382)로부터 제2 특징 데이터를 추출할 수 있다. 제2 특징 추출 모델은, 제1 기준 시점과 다른 제2 기준 시점의 3차원 공간(360)의 지점에 대한 특징 추출을 위해 설계 및 트레이닝된 모델일 수 있다. 뉴럴 네트워크를 포함하는 제2 특징 추출 모델은 제2 특징 추출 네트워크(312)라고도 나타낼 수 있다. 둘 이상의 특징 추출 네트워크들은 서로 독립적일 수 있다.
전자 장치는 제1 특징 데이터 및 제2 특징 데이터에 기초한 보간(interpolation)을 수행할 수 있다. 전자 장치는 보간의 결과에 기초하여 시공간 특징 데이터(305)를 획득할 수 있다. 예를 들어, 전자 장치는 제1 기준 시점, 제2 기준 시점, 및 타겟 시점에 기초하여 제1 특징 데이터 및 제2 특징 데이터를 보간한 것에 기초하여 시공간 특징 데이터(305)를 결정할 수 있다. 시공간 특징 데이터(305)는 특징 데이터들의 선형 보간(linear interpolation)에 기초한 병합(merge)에 의해 생성될 수 있다. 선형 보간에서 쿼리 프레임(query frame)(예: 시간 정보(382)가 지시하는 시간 프레임)에 따라 각 특징 데이터에 대해 적용되는 가중치(weight)가 달라질 수 있다. 보간에 기초한 시공간 특징 데이터(305)의 결정은 하기 도 4에서 설명한다.
일 실시예에 따르면 전자 장치는 장면 정보 추정 모델에 기초하여, 시공간 특징 데이터(305) 및 뷰 방향(383)으로부터 장면 정보(390)를 생성할 수 있다. 장면 정보 추정 모델은 예를 들어 볼륨 밀도 추정 네트워크(351) 및 색상 추정 네트워크(352)를 포함할 수 있다. 볼륨 밀도 추정 네트워크(351) 및 색상 추정 네트워크(352)는 각각 뉴럴 네트워크를 포함하는 MLP(multi-layer perceptron) 네트워크로 구현될 수 있다.
전자 장치는 볼륨 밀도 추정 네트워크(351)에 기초하여 시공간 특징 데이터(305)로부터 임베딩 벡터(embedding vector)(또는 잠재 벡터(latent vector)) 및 볼륨 밀도 정보(391)를 생성할 수 있다. 볼륨 밀도 정보(391)는 전술한 바와 같이, 해당하는 타겟 지점에서의 볼륨 밀도 값을 포함할 수 있다.
전자 장치는 임베딩 벡터와 함께 추가 입력들로부터 색상 추정 네트워크(352)에 기초하여 색상 정보(392)를 추정할 수 있다. 추가 입력들은 예시적으로 뷰 방향(383) 및 잠재 외형 정보(384)를 포함할 수 있다. 뷰 방향(383)은 전술하였다. 색상 정보(392)는 전술한 바와 같이 타겟 지점을 뷰 방향(383)으로 보는 경우의 색상 값을 포함할 수 있다. 참고로, 전자 장치는 색상 정보(392)의 추정시, 잠재 외형 정보(384)(latent appearance information)(예: 잠재 외형 코드)를 장면 정보 추정 모델(예: 색상 추정 네트워크(352))에 추가로 입력할 수 있다. 잠재 외형 정보(384)는 개별 지점의 색상에 잠재적으로 영향을 미칠 수 있는 환경(예: 카메라 세팅, 카메라 모델, 특정 시점에서의 조명)을 지시하는 정보일 수 있다.
참고로, 본 명세서에서, X(또는 Xi)는 i번째 시간 프레임(예: ti)의 3차원 공간(360)에서 뷰 방향(383)을 따라 샘플링된 3차원 지점에 대한 좌표를 나타낼 수 있다. 및 는 뷰 방향(383)을 나타낼 수 있다. wi는 시간 정보(382)로서, 예를 들어, i번째 시간 프레임(예: ti)을 나타내는 벡터일 수 있다. 시간 정보(382)는 예를 들어, 디포메이션 코드(deformation code)일 수 있다. 는 잠재 외형 정보(384)로서, 예를 들어, 장면(예: i번째 시간 프레임에 대응하는 장면 또는 다른 카메라로 캡처한 장면)의 색상보정을 위한 잠재 외형 코드(appearance code)를 포함할 수 있다. σ는 해당 입력에 대해 계산된 볼륨 밀도(volume density)를 나타내고, c는 해당 입력에 대해 계산된 RGB 색상 값을 나타낼 수 있다.
참고로, 디포메이션 코드 및 잠재 외형 코드는 장면 복원 모델(300)의 트레이닝을 통해 결정될 수 있다. 예를 들어, 트레이닝 장치(예: 전자 장치)는 i번째 시간 프레임(예: ti) 및 타겟 지점을 장면 복원 모델(300)로 순전파(forward propagation)시킨 출력에 기초하여 목적 함수 값을 계산할 수 있다. 트레이닝 장치는 장면 복원 모델(300)의 순전파에 기초하여 임시 장면 정보(390)(예: 색상 정보(392) 및 볼륨 밀도 정보(391))를 출력할 수 있는데, 이 임시 장면 정보(390)로부터 볼륨 렌더링에 의해 2차원 장면 이미지에 대응하는 임시 픽셀 값을 획득할 수 있다. 목적 함수(예: 렌더링 손실)는 예시적으로 GT(ground truth) 컬러 이미지의 픽셀 값과 전술된 순전파에 기초한 임시 픽셀 값 간의 차이(예: L2 손실)에 기초하여 결정될 수 있다. 다만, 목적 함수 값을 이로 한정하는 것은 아니고, 설계에 따라 달라질 수 있다. 트레이닝 장치는, 역전파(back propagation)에 기초하여, 목적 함수 값이 일정 방향(예: 감소하는 방향)으로 변화하도록 장면 복원 모델(300)(예: 색상 추정 네트워크(352), 볼륨 밀도 추정 네트워크(351), 제2 특징 추출 네트워크(312), 및 제2 특징 추출 네트워크(312))의 파라미터(예: 연결 가중치)를 업데이트할 수 있다. 이 때, 트레이닝 장치는 뉴럴 네트워크의 파라미터 뿐만 아니라, 시간 정보(382)(예: 디포메이션 코드)가 업데이트될 수 있다.
트레이닝이 완료되면, 각 시간 프레임을 지시하는 시간 정보(382)가 결정될 수 있다. 시간 프레임들 별로 고유의 디포메이션 코드들이 개별적으로 매핑될 수 있다. 유사하게, 트레이닝 장치는 i번째 시간 프레임(예: ti), 타겟 지점, 뷰 방향, 및 잠재 외형 코드를 장면 복원 모델(300)로 순전파시킨 출력에 기초하여 목적 함수 값을 계산할 수 있다. 잠재 외형 정보(384)(예: 잠재 외형 코드)도 트레이닝을 통한 업데이트에 의해 결정될 수 있다. 환경들 별로 고유의 잠재 외형 코드들이 개별적으로 매핑될 수 있다. 일 실시예에 따르면 전자 장치는, 장면 복원 모델(300)을 이용한 장면 정보의 추론 동작에서, 디포메이션 코드, 추가적으로, 잠재 외형 코드를 수신하여, 장면 복원 모델(300)에 입력할 수 있다.
도 4는 일 실시예에 따른 특징 보간 데이터의 결정을 도시한 도면이다.
일 실시예에 따른 전자 장치는 특징 추출 네트워크 그룹을 통해 특징 데이터들을 추출하고, 추출된 특징 데이터들에 기초하여 보간된 특징 데이터(예: 특징 보간 데이터)를 결정할 수 있다. 전자 장치는 LOD(level of detail)의 개수(예: )만큼의 특징 추출 네트워크 그룹들을 포함할 수 있다. 각 LOD에 대응하는 특징 추출 네트워크 그룹은 복수의 특징 추출 네트워크(예: 뉴럴 네트워크)(예: nk개의 특징 추출 네트워크들)을 포함할 수 있다. nk는 k번째 LOD에 대응하는 특징 추출 네트워크 그룹에 포함된 특징 추출 네트워크들의 개수를 나타낼 수 있고, k는 1이상 L 이하의 정수일 수 있다.
도 4에서는 LOD의 개수 L=1, 기본 LOD에 대응하는 특징 추출 네트워크 그룹이 n1=2 개의 특징 추출 네트워크들을 포함하는 예시가 도시된다. 전자 장치는 3차원 지점 및 시간 프레임을 지시하는 잠재 변수(latent variable) 를 입력 데이터로서 각 LOD 별 특징 추출 네트워크 그룹에 순전파시킬 수 있다. 도 4에 도시된 예시에서 기본 LOD에 대응하는 특징 추출 네트워크 그룹은 제1 뉴럴 네트워크(411) 및 제2 뉴럴 네트워크(412)를 포함할 수 있다. 제1 뉴럴 네트워크(411)에서는 제1 특징 데이터(feat1)가 출력되고, 제2 뉴럴 네트워크(412)에서는 제2 특징 데이터(feat2)가 출력될 수 있다. 전자 장치는 특징 추출 네트워크 그룹의 출력들에 선형 보간(430)을 적용함으로써 특징 보간 데이터(예: f(Xi,wi))를 계산할 수 있다. 예를 들어, 선형 보간(430)은 하기 수학식 1과 같이 수행될 수 있다.
전술된 수학식 1에서, 는 타겟 시점의 시간 프레임(예: i번째 시간 프레임)을 지시하는 값을 나타낼 수 있다. 장면 복원 모델의 학습 대상인 동적 3차원 공간(예: 3차원 공간에 대한 동영상)의 총 프레임 개수가 N이면, i번째 시간 프레임을 지시하는 값은 로 정의될 수 있다. 여기서, N은 2이상의 정수, i는 0 이상 N-1이하의 정수일 수 있다. 수학식 1에서 전술된 바와 같이, 시간 프레임을 지시하는 값을 이용한 가중치가 각 특징 데이터에 적용될 수 있다.
예를 들어, 전자 장치는 제1 기준 시점(예: tref,1=0) 및 타겟 시점(예: ti)에 기초하여 결정된 제1 가중치를 제2 특징 데이터에 적용할 수 있다. 전자 장치는 제1 기준 시점 및 타겟 시점 간의 시간 차이(예: ti-tref,1)에 기초하여 제1 가중치를 결정할 수 있다. 전자 장치는 제2 기준 시점(예: tref,2=1) 및 타겟 시점에 기초하여 결정된 제2 가중치를 제1 특징 데이터에 적용할 수 있다. 전자 장치는 제2 기준 시점 및 타겟 시점 간의 시간 차이(예: tref,2-ti)에 기초하여 제2 가중치를 결정할 수 있다. 제1 가중치 및 제2 가중치의 합은 예시적으로 1일 수 있다.
타겟 시점(예: ti)이 제2 기준 시점으로부터 멀어지고 제1 기준 시점에 인접할 수록 제1 뉴럴 네트워크(411)로부터 출력된 제1 특징 데이터에 더 큰 가중치가 곱해질 수 있다. 타겟 시점이 제1 기준 시점으로부터 멀어지고 제2 기준 시점에 인접할수록 제2 뉴럴 네트워크(412)로부터 출력된 제2 특징 데이터에 더 큰 가중치가 곱해질 수 있다. 전자 장치는 제1 특징 데이터에 제2 가중치를 곱한 벡터 및 제2 특징 데이터에 제1 가중치를 곱한 벡터의 합을 특징 보간 데이터(예: f(Xi,wi))로 결정할 수 있다. 트레이닝은 전술된 특징 보간 데이터(예: f(Xi,wi))의 순전파에 따라 결정된 목적 함수 값을 이용하여 수행될 수 있다. 따라서, 제1 뉴럴 네트워크(411)는 제1 기준 시점(예: tref,1=0)을 기준으로 타겟 시점 및 타겟 지점을 추상화한 제1 특징 데이터를 출력하도록 트레이닝될 수 있다. 제2 뉴럴 네트워크(412)는 제2 기준 시점(예: tref,2=1)을 기준으로 타겟 시점 및 타겟 지점을 추상화한 제2 특징 데이터를 출력하도록 트레이닝될 수 있다.
예를 들어, 전자 장치는 타겟 시점이 제1 기준 시점인 경우 제1 뉴럴 네트워크(411)로부터 출력된 제1 특징 데이터를 시공간 특징 데이터로 결정할 수 있다. 전자 장치는 타겟 시점이 제2 기준 시점인 경우 제2 뉴럴 네트워크(412)로부터 출력된 제2 특징 데이터를 시공간 특징 데이터로 결정할 수 있다. 타겟 시점이 제1 기준 시점과 제2 기준 시점 사이인 경우, 전자 장치는 두 뉴럴 네트워크들로부터 출력된 특징 데이터들의 선형 보간(linear interpolation)(예: 전술된 수학식 1)에 따른 특징 보간 데이터(예: f(Xi,wi))를 시공간 특징 데이터로 결정할 수 있다.
다만, 특징 보간 데이터(예: f(Xi,wi))의 결정을 전술한 바로 한정하는 것은 아니다. 특징 추출 네트워크 그룹이 3개 이상의 특징 추출 네트워크들을 포함하는 경우, 전자 장치는 타겟 시점에 기초하여 2개의 특징 추출 네트워크들을 선택할 수 있다. 예를 들어, 전자 장치는 셋 이상의 기본 특징 추출 모델들 중으로부터 제1 특징 추출 모델 및 제2 특징 추출 모델을 선택할 수 있다. 기본 특징 추출 모델은 기본 LOD(예: 1번째 LOD)의 특징 추출 네트워크 그룹에 속하는 모델을 나타낼 수 있다. 전자 장치는 셋 이상의 기본 특징 추출 모델들 중 타겟 시점에 기초하여 제1 특징 추출 모델 및 제2 특징 추출 모델을 선택할 수 있다. 예를 들어, 전자 장치는 셋 이상의 기본 특징 추출 모델들에 대응하는 기준 시점들과 타겟 시점 간의 비교에 기초하여, 셋 이상의 기본 특징 추출 모델들로부터 제1 특징 추출 모델 및 제2 특징 추출 모델을 선택할 수 있다. 전자 장치는 셋 이상의 기본 특징 추출 모델들에 대응하는 기준 시점들 중 타겟 시점에 시간적으로 인접한 제1 기준 시점에 대응하는 제1 특징 추출 모델 및 제2 기준 시점에 대응하는 제2 특징 추출 모델을 선택할 수 있다. 타겟 시점은 제1 기준 시점 및 제2 기준 시점에 의해 정의되는 시간 범위에 포함될 수 있다. 제1 기준 시점 및 제2 기준 시점은, 기준 시점들 중 타겟 시점에 시간적으로 가장 인접한 상위 2개 시점일 수 있다. 제1 기준 시점은 타겟 시점보다 선행(precede)하는 기준 시점들 중 타겟 시점에 가장 인접한 시점일 수 있고, 제2 기준 시점은 타겟 지점에 후속(subsequent)하는 기준 시점들 중 가장 인접한 시점일 수 있다.
도 4에서는 설명의 편의를 위해, 기본 LOD 위주로 설명되었으나, 하기 도 5에서는 추가 LOD와 함께 LOD 별 특징 추출 네트워크의 선택 및 선택된 특징 추출 네트워크를 이용한 특징 보간 데이터의 결정이 설명된다.
도 5는 일 실시예에 따른 추가 LOD(level of detail)에 따른 특징 보간 데이터를 생성하는 것을 도시한 도면이다.
일 실시예에 따르면, 전자 장치는 복수의 LOD들에 대한 특징 추출 네트워크 그룹들을 포함할 수 있다. 각 특징 추출 네트워크 그룹은 복수의 특징 추출 네트워크들을 포함할 수 있다. 예를 들어, L개의 LOD들 중 k번째 LOD에 대한 특징 추출 네트워크 그룹은 nk개의 특징 추출 모델들(예: 특징 추출 네트워크들)을 포함할 수 있다. 각 특징 추출 모델에는 기준 시점이 할당될 수 있다. 예를 들어, nk개의 특징 추출 모델들 중 j번째 특징 추출 모델에는 j번째 기준 시점이 할당될 수 있다. j번째 기준 시점(예: tref,j)은 시간 구간(예: 0 이상 1이하)을 (nk-1) 등분한 시점들 중 j번째 시점으로서, tref,j=(j-1)(tN-1-t0)/(nk-1)=(j-1)/(nk-1)일 수 있다. 여기서, j는 1이상 nk이하의 정수일 수 있다. 앞서 도 4에서 설명된 특징 추출 모델들의 개수 nk=2인 예시 뿐만 아니라, 특징 추출 네트워크 그룹이 3개 이상의 특징 추출 모델들을 포함하는 경우에도 하기 수학식 2에 따라 특징 보간 데이터가 생성될 수 있다.
전술한 수학식 2에서 j는 1이상 nk-1이하의 정수일 수 있다. 전자 장치는 j+1번째 특징 추출 모델로부터 출력된 제j+1 특징 데이터(예: featj+1)에 타겟 시점 및 제j 기준 시점(예: 제1 기준 시점) 간의 차이(예: ti-tref,j)에 기초한 가중치를 적용할 수 있다. 전자 장치는 j번째 특징 추출 모델로부터 출력된 제j 특징 데이터(예: featj)에 타겟 시점 및 제j+1 기준 시점(예: 제2 기준 시점) 간의 차이(예: tref,j+1-ti)에 기초한 가중치를 적용할 수 있다. 전자 장치는 수학식 2와 같이 타겟 시점 및 기준 시점들에 기초하여 결정된 가중치들을 특징 데이터들에 적용한 결과들의 합을 특징 보간 데이터로 결정할 수 있다. 전자 장치는 여러 LOD에 대응하는 특징 추출 네트워크 그룹들에 대해 전술된 수학식 2에 기초한 특징 보간 데이터들을 생성할 수 있다.
예를 들어, 전자 장치는 기본 LOD 및 추가 LOD에 대응하는 특징 추출 네트워크 그룹들을 이용하여 특징 보간 데이터들을 생성할 수 있다. 도 5에서는 LOD의 개수 L=2인 예시로서, 기본 LOD에 대응하는 특징 추출 네트워크 그룹(예: 기본 그룹(510))에 포함된 특징 추출 모델들의 개수 n1=2, 추가 LOD에 대응하는 특징 추출 네트워크 그룹(예: 추가 그룹(520))에 포함된 특징 추출 모델들의 개수 n2=5인 예시가 도시된다. 다만, 각 그룹에 포함되는 특징 추출 모델들의 개수를 전술한 바로 한정하는 것은 아니고, 기본 LOD에 대응하는 특징 추출 네트워크 그룹도 3개 이상의 특징 추출 모델들을 포함할 수도 있다. 전자 장치는 기본 LOD에 대응하는 기본 특징 보간 데이터(예: f1(Xi,wi)) 및 추가 LOD에 대응하는 추가 특징 보간 데이터(예: f2(Xi,wi))를 결정할 수 있다.
예를 들어, 전자 장치는 기본 그룹에 포함된 특징 추출 네트워크들(NN1_1, NN1_2)에 기초하여 제1 특징 데이터(feat1_1) 및 제2 특징 데이터(feat1_2)를 추출할 수 있다. 전자 장치는 추출된 제1 특징 데이터(feat1_1) 및 제2 특징 데이터(feat1_2)에 기초하여 도 4에서 전술된 보간(519)을 통해 기본 특징 보간 데이터(f1(Xi,wi))를 생성할 수 있다.
전자 장치는 추가 그룹에 포함된 추가 LOD에 대응하는 복수의 추가 특징 추출 모델들(NN2_1, NN2_2, NN2_3, NN2_4, NN2_5)에 기초하여, 타겟 시점 및 타겟 지점에 대응하는 추가 특징 데이터들을 추출할 수 있다. 전자 장치는 추출된 추가 특징 데이터들에 기초하여 추가 특징 보간 데이터를 생성할 수 있다. 예를 들어, 전자 장치는 복수의 추가 특징 추출 모델들(NN2_1, NN2_2, NN2_3, NN2_4, NN2_5) 중 타겟 시점에 기초하여 두 추가 특징 추출 모델들(NN2_2, NN2_3)을 선택할 수 있다.
도 4에서 설명된 바와 유사하게, 전자 장치는 추가 그룹에 포함된 각 추가 특징 추출 모델에 할당된 기준 시점과 타겟 시점 간의 비교에 기초하여, 추가 특징 추출 모델을 선택할 수 있다. 전자 장치는 타겟 시점과 가장 인접한 상위 2개 기준 시점들에 할당된 추가 특징 추출 모델들(NN2_2, NN2_3)을 선택할 수 있다. 타겟 시점은 제1 추가 특징 추출 모델(NN2_2)에 할당된 제1 기준 시점과 제2 추가 특징 추출 모델(NN2_3)에 할당된 제2 기준 시점 사이의 시점일 수 있다. 전자 장치는 선택된 두 추가 특징 추출 모델들(NN2_2, NN2_3)을 이용하여 추가 특징 데이터들(feat2_2, feat2_3)을 추출할 수 있다. 전자 장치는 추가 특징 데이터들(feat2_2, feat2_3)에 대해 전술된 수학식 2에 따른 선형 보간(529)을 적용함으로써 추가 특징 보간 데이터(f2(Xi,wi))를 생성할 수 있다.
일 실시예에 따른 전자 장치는 특징 보간 데이터 및 추가 LOD(level of detail)에 대응하는 추가 특징 보간 데이터에 기초하여 시공간 특징 데이터(f(x,y,z,t))를 결정할 수 있다. 예를 들어, 전자 장치는 기본 특징 보간 데이터 및 추가 특징 보간 데이터를 결합(concatenate)(540)함으로써 시공간 특징 데이터(f(x,y,z,t))를 결정할 수 있다.
참고로, 도 5에서는 기본 그룹의 기본 특징 추출 모델들의 개수가 2개, 추가 그룹의 추가 특징 추출 모델들의 개수가 5개인 예시가 도시되었으나, 이로 한정하는 것은 아니다. 설계에 따라 달라질 수 있는데, 예를 들어, 기본 특징 추출 모델들이 5개, 추가 특징 추출 모델들이 20개일 수 있다. 전자 장치는 5개의 기본 특징 추출 모델들로부터 제1 특징 추출 모델 및 제2 특징 추출 모델을 선택할 수 있다. 전자 장치는 20개의 추가 특징 추출 모델들 중으로부터 2개의 추가 특징 추출 모델들을 선택할 수 있다. 일 실시예에 따르면, 전술한 다중 LOD 별로 뉴럴 네트워크의 개수가 다양하게 구성될 수 있다. 도 5에 도시된 예시에서는 LOD가 2개인 예시가 도시되었으나, 이로 한정하는 것은 아니고, 3개 이상의 LOD 별로 다양한 개수의 특징 추출 네트워크들이 구성될 수 있다.
도 6은 일 실시예에 따른 특징 추출 네트워크 그룹의 트레이닝을 도시한 도면이다.
일 실시예에 따르면 장면 복원 모델의 네트워크들(예: 특징 추출 네트워크들, 볼륨 밀도 추정 네트워크, 색상 추정 네트워크)은 렌더링 손실에 기초하여 트레이닝될 수 있다. 특징 추출 네트워크들은 전술된 렌더링 손실에 더하여, 인접한 시간 프레임들 간의 평활화 항(690)(Smoothness term)에 더 기초하여 트레이닝될 수 있다.
도 6에 도시된 특징 추출 네트워크 그룹(610)은 예시적으로 도 2에 도시된 특징 추출 모델들(211, 212)을 포함하는 그룹, 도 3에 도시된 특징 추출 네트워크들(311, 312)을 포함하는 그룹, 도 4에 도시된 뉴럴 네트워크들(411, 412)을 포함하는 그룹, 도 5에 도시된 기본 그룹(510), 또는 추가 그룹(520)을 포함할 수 있다. 도 6에 도시된 시공간 특징 데이터들(605-1, 605-2)은 복수의 특징 추출 네트워크들(예: 2개의 특징 추출 네트워크들)로부터 출력된 특징 데이터들에 기초하여 생성될 수 있다. 참고로, 시공간 특징 데이터들(605-1, 605-2)의 각각은 해당하는 시간 프레임에 대해 추출된 특징 데이터들의 선형 보간에 기초한 특징 보간 데이터(예: 도 4 참조)이거나, 여러 LOD에 대해 획득된 특징 보간 데이터들이 결합된 데이터(예: 도 5 참조)일 수 있다.
트레이닝 장치(예: 전자 장치)는, 같은 특징 추출 네트워크 그룹(610)을 상이한 시간 정보들(682-1, 682-2)에서 같은 지점 정보(681)에 대해 적용함으로써, 상이한 시점들에 대한 시공간 특징 데이터들을 획득할 수 있다. 예를 들어, 도 6에 도시된 바와 같이, 트레이닝 장치는 지점 정보(681) 및 제1 시간 정보(682-1)를 특징 추출 네트워크 그룹(610)에 전파한 결과에 기초하여 제1 시공간 특징 데이터(605-1)를 결정할 수 있다. 트레이닝 장치는 지점 정보(681) 및 제2 시간 정보(682-2)를 특징 추출 네트워크 그룹(610)에 전파한 결과에 기초하여 제2 시공간 특징 데이터(605-2)를 결정할 수 있다. 제1 시간 정보(682-1)와 제2 시간 정보(682-2)는 서로 다른 시점들로서, 예시적으로 서로 인접한 시점들을 지시할 수 있다. 예를 들어, 제1 시간 정보(682-1)가 i번째 시간 프레임을 지시하는 경우, 제2 시간 정보(682-2)가 i+1번째 시간 프레임을 지시할 수 있다. 제1 시공간 특징 데이터(605-1) 및 제2 시공간 특징 데이터(605-2)는 서로 인접한 시간 프레임에서 같은 지점에 대해 추상화된 특징 데이터일 수 있다. 트레이닝 장치는 제1 시공간 특징 데이터(605-1) 및 제2 시공간 특징 데이터(605-2)에 기초하여, 하기 수학식 3과 같은 평활화 항(690)을 계산할 수 있다.
전술된 수학식 3은 시공간 특징 데이터들에 대한 평활화 항(690)으로서, 제1 시공간 특징 데이터(605-1) 및 제2 시공간 특징 데이터(605-2) 간의 L2 노름(L2 norm)을 나타낼 수 있다. f(Xi,wi)는 i번째 프레임에 대해 추출된 제1 시공간 특징 데이터(605-1)를 나타내고, f(Xi,wi+1)은 i+1번째 프레임에 대해 추출된 제2 시공간 특징 데이터(605-2)를 나타낼 수 있다. 트레이닝 장치는 전술된 수학식 3에 따른 평활화 항(690)을 포함하는 목적 함수 값에 기초하여 특징 추출 네트워크 그룹(610)에 대한 트레이닝을 수행할 수 있다. 평활화 항(690)에 의해, 인접한 시간 프레임들 간에 같은 3차원 지점에서의 특징은 비슷해지도록, 역전파(back-propagation)를 통해 특징 추출 네트워크 그룹(610) 전체의 파라미터들(예: 연결 가중치)이 업데이트될 수 있다. 해당 평활화 항(690)을 통해, 트레이닝 장치는 특정 프레임에서는 관찰되지 않는 3차원 지점에 관해서도 효과적으로 특징 추출 네트워크 그룹(610)을 트레이닝시킬 수 있다.
다만, 평활화 항(690)을 이로 한정하는 것은 아니다. 트레이닝 장치는 서로 상이한 시점들에서 광류(optical flow)를 이용해서 매칭(matching)되는 지점들의 특징 데이터들에 대해 평활화 항(690)을 적용할 수 있다. 다른 예를 들어, 트레이닝 장치는 서로 다른 시점들에 대해 렌더링된 이미지 중 서로 비슷한 패치들(patch)을 찾고, 패치들 간에 평활화 항(690)을 적용할 수도 있다.
일 실시예에 따르면, 전술된 평활화 항(690)에 의해 최종 결과가 아닌, 특징 추출 네트워크 그룹(610)에서 추출된 특징에 대해 평활화(smoothness)가 적용되므로, 실제 출력 특성(output attribute)이 포함하지 못하는 성질에 대한 특징들도 유사해질 수 있다. 도 1 내지 도 5에서 전술된 보간과 함께 사용되어 더 효율적인 학습이 가능해질 수 있다.
도 7은 일 실시예에 따른 특징 추출 모델의 다른 예시를 도시한 도면이다.
일 실시예에 따르면, 시공간 특징 데이터를 추출하는 모델(예: 제1 특징 추출 모델(711) 및 제2 특징 추출 모델(712))이, 뉴럴 네트워크(neural network) 또는 그리드 기반 표현(grid-based representation)를 포함하는 기계 학습 모델(machine learning model)일 수 있다. 도 1 내지 도 6에서는 특징 추출 모델들이 뉴럴 네트워크를 포함하는 예씨가 주로 설명되었다. 다만, 이로 한정하는 것은 아니고, 그리드 기반 표현으로 특징 추출 모델이 구현될 수도 있다.
예를 들어, 도 7에 도시된 바와 같이, 제1 특징 추출 모델(711) 및 제2 특징 추출 모델(712)은 그리드 기반 표현 모델로 구현될 수 있다. 그리드 기반 표현 모델은 뉴럴 네트워크보다 빠른 트레이닝이 가능할 수 있다. 그리드 기반 표현 모델은, 4차원의 텐서 그리드로서, 3차원 공간 내 복셀 별로 여러 시간 프레임들에 대한 특징 벡터를 포함할 수 있다. 전자 장치는 시간 정보에 의해 시간 프레임이 지정되면 지점 정보에 의해 지시된 복셀에서 대응하는 특징 벡터를 그리드 기반 표현 모델로부터 검색하여 출력할 수 있다. 복셀에 대응하는 특징 벡터는 해시함수 (hash function)에 기반하여 효율적으로 메모리에 저장되고 참조될 수 있다. 전자 장치는 제1 특징 추출 모델(711)의 제1 특징 데이터(feature1)와 제2 특징 데이터(feature2) 간의 특징 보간(730)에 기초하여 특징 보간 데이터를 획득할 수 있다. 전자 장치는 그리드 기반 표현 모델의 복셀들 중 픽셀에 대응하는 뷰 방향을 따르는 샘플 지점들에 대응하는 복셀들의 특징 벡터만 추출하여 특징 보간 데이터들을 획득할 수 있다. 전자 장치는 특징 보간 데이터에 기초한 시공간 특징 데이터 및 뷰 방향으로부터 장면 정보 추정 모델에 기초하여 장면 정보들을 추정하고, 추정된 장면 정보들을 이용하여 볼륨 렌더링을 수행할 수 있다.
도 8 및 도 9는 일 실시예에 따른 장면 복원 장치의 구성을 도시한 블록도이다.
일 실시예에 따른 전자 장치(800)는 3차원 공간에 대한 동적 장면의 영상(예: 동영상)을 복원하는 장치로서, 프로세서(810) 및 메모리(820)를 포함할 수 있다.
프로세서(810)는 지점 정보(point information) 및 시간 정보(time information)로부터 제1 특징 추출 모델에 기초하여 시간 정보에 대응하는 타겟 시점(target time instant)의 3차원 공간 내 지점 정보에 의해 지시되는 타겟 지점에 대한 제1 특징 데이터를 추출할 수 있다. 프로세서(810)는 지점 정보 및 시간 정보로부터 제2 특징 추출 모델에 기초하여 타겟 시점의 3차원 공간 내 타겟 지점에 대한 제2 특징 데이터를 추출할 수 있다. 프로세서(810)는, 제1 특징 데이터 및 제2 특징 데이터에 기초하여 시공간 특징 데이터(spacetime feature data)를 획득할 수 있다. 시공간 특징 데이터는 제1 특징 데이터 및 제2 특징 데이터의 시간 축에서의 선형 보간에 의해 결정될 수 있다. 프로세서(810)는, 시공간 특징 데이터로부터 장면 정보 추정 모델에 기초하여 타겟 시점의 타겟 지점에 대한 장면 정보를 생성할 수 있다. 다만, 프로세서(810)의 동작을 이로 한정하는 것은 아니고, 도 1 내지 도 7에서 전술된 동작들 중 적어도 하나를 시계열적으로 또는 병렬적으로 수행할 수 있다.
메모리(820)는 제1 특징 추출 모델, 제2 특징 추출 모델, 및 장면 정보 추정 모델을 저장할 수 있다. 메모리(820)는 기본 LOD에 대한 제1 특징 추출 모델 및 제2 특징 추출 모델과 함께, 추가 LOD에 대한 추가 특징 추출 모델들을 더 포함할 수도 있다. 장면 정보 추정 모델은 볼륨 밀도 추정 모델 및 색상 추정 모델을 포함할 수 있다. 제1 특징 추출 모델 및 제2 특징 추출 모델은 서로 독립적으로 특징을 추출하게 구성될 수 있다.
도 9를 참조하면, 전자 장치(900)(예: 컴퓨팅 장치)는 입력 인터페이스(910), 프로세서(920), 메모리(930), 디스플레이(940), 및 통신 회로(950)를 포함할 수 있다. 전자 장치(900)는 도 1 내지 도 8에서 전술한 장면 복원 모델의 트레이닝 및/또는 장면 복원 모델을 이용한 추론(예: 장면 복원)을 수행하는 장치이다. 전자 장치(900)는, 예를 들어 이미지 처리 장치, 스마트폰, 웨어러블 기기(wearable device), 태블릿 컴퓨터, 넷북, 랩탑, 데스크탑, 또는 PDA(personal digital assistant) 일 수 있다.
입력 인터페이스(910), 프로세서(920), 메모리(930), 디스플레이(940), 및 통신 회로(950)는 통신 버스를 통해 서로 통신할 수 있다.
입력 인터페이스(910)는 촉각, 비디오, 오디오 또는 터치 입력을 통해 사용자로부터 입력을 수신할 수 있다. 입력 인터페이스(910)는 키보드, 마우스, 터치 스크린, 마이크로폰, 또는 사용자로부터 입력을 검출하고, 검출된 입력을 전달할 수 있는 임의의 다른 장치를 포함할 수 있다.
프로세서(920)는 전자 장치(900)(예: 컴퓨팅 장치) 내에서 실행하기 위한 기능 및 인스트럭션들을 실행한다. 예를 들어, 프로세서(920)는 메모리(930)에 저장된 인스트럭션들을 처리할 수 있다. 프로세서(920)는 도 1 내지 도 8을 통하여 전술한 하나 이상의 동작을 수행할 수 있다.
메모리(930)는 프로세서(920)의 실행에 필요한 정보 내지 데이터를 저장한다. 예를 들어, 메모리(930)는 전술한 기계학습 모델들을 포함할 수 있다. 메모리(930)는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함할 수 있다. 메모리(930)는 프로세서(920)에 의해 실행하기 위한 인스트럭션들을 저장할 수 있고, 전자 장치(900)에 의해 소프트웨어 또는 애플리케이션이 실행되는 동안 관련 정보를 저장할 수 있다.
디스플레이(940)는 사용자에게 전자 장치(900)의 출력을 시각적으로 제공할 수 있다. 예를 들어 디스플레이(940)는 프로세서(920)에 의해 복원된 2차원 장면 이미지를 표시할 수 있다.
통신 회로(950)는 유선 또는 무선 네트워크를 통해 외부 장치와 통신할 수 있다. 통신 회로(950)는 전술된 기계학습 모델들 및 각 기계학습 모델의 파라미터(예: 트레이닝이 완료된 파라미터)를 외부 장치(예: 서버)로부터 수신할 수도 있다.
일 실시예에 따른 전자 장치(800, 900)는 3차원 동적(dynamic) 또는 변형가능(deformable) 장면의 뉴럴 렌더링(예: NeRF)을 이용한 2차원 장면 표현을 수행할 수 있다. 전자 장치(800, 900)는 동적 객체 및 장면으로 NeRF를 확장하여, 3차원 공간 및 시간에 따른 장면 표현을 학습시킬 수 있다. 전자 장치(800, 900)는 시간, 뷰를 사용자가 임의로 입력하였을 때, 해당하는 2차원 장면 이미지를 생성할 수 있다. 전자 장치(800, 900)는 독립적인 복수의 특징 추출 네트워크들 중 사용자에 의해 입력된 시간 정보에 따라 일부 특징 추출 네트워크들(예: 2개의 특징 추출 네트워크들)을 선택하고, 선택된 특징 추출 네트워크들을 이용하여 추출된 특징 데이터들을 선형 보간함으로써 시공간 특징 데이터를 결정할 수 있다. 전자 장치(800, 900)는 시공간 특징 데이터를 이용하여 장면 정보 추정 모델에 기초하여 NSR 데이터를 추정할 수 있다. 전자 장치(800, 900)는 컴퓨터 그래픽스(computer graphics)와 관련된 모든 작업(task)에 광범위하게 적용될 수 있다. 특히 동영상을 통해 촬영되지 않은 시점의 3D 장면까지 복원이 가능할 수 있다. 전자 장치(800, 900)는 비디오 보간(video interpolation), 비디오 안정화(video stabilization) 등에 사용이 가능할 수 있다. 전자 장치(800, 900)는 3차원 가상 세계 복원, 새로운 방식의 동영상 렌더링 및 인코딩을 수행할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 저장할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (20)
- 전자 장치에 있어서,
제1 특징 추출 모델, 제2 특징 추출 모델, 및 장면 정보 추정 모델을 저장한 메모리;
지점 정보(point information) 및 시간 정보(time information)로부터 상기 제1 특징 추출 모델에 기초하여 상기 시간 정보에 대응하는 타겟 시점(target time instant)의 3차원 공간 내 상기 지점 정보에 의해 지시되는 타겟 지점에 대한 제1 특징 데이터를 추출하고, 상기 지점 정보 및 상기 시간 정보로부터 상기 제2 특징 추출 모델에 기초하여 상기 타겟 시점의 상기 3차원 공간 내 상기 타겟 지점에 대한 제2 특징 데이터를 추출하며, 상기 제1 특징 데이터 및 상기 제2 특징 데이터에 기초하여 시공간 특징 데이터(spacetime feature data)를 획득하고, 상기 시공간 특징 데이터 및 뷰 방향으로부터 상기 장면 정보 추정 모델에 기초하여 상기 타겟 시점의 상기 타겟 지점에 대한 장면 정보를 생성하는 프로세서
를 포함하는 전자 장치. - 제1항에 있어서,
상기 프로세서는,
상기 제1 특징 데이터 및 상기 제2 특징 데이터에 기초한 보간(interpolation)을 수행하고,
상기 보간의 결과에 기초하여 상기 시공간 특징 데이터를 획득하는,
전자 장치. - 제1항에 있어서,
상기 제1 특징 추출 모델은,
제1 기준 시점의 3차원 공간을 위해 트레이닝된 모델이고,
상기 제2 특징 추출 모델은,
상기 제1 기준 시점과 다른 제2 기준 시점의 3차원 공간을 위해 트레이닝된 모델인,
전자 장치. - 제1항에 있어서,
상기 프로세서는,
제1 기준 시점, 제2 기준 시점, 및 상기 타겟 시점에 기초하여 상기 제1 특징 데이터 및 상기 제2 특징 데이터를 보간한 것에 기초하여 상기 시공간 특징 데이터를 결정하는,
전자 장치. - 제4항에 있어서,
상기 프로세서는,
상기 제1 기준 시점 및 상기 타겟 시점에 기초하여 결정된 제1 가중치를 상기 제2 특징 데이터에 적용하고,
상기 제2 기준 시점 및 상기 타겟 시점에 기초하여 결정된 제2 가중치를 상기 제1 특징 데이터에 적용하는,
전자 장치. - 제4항에 있어서,
상기 프로세서는,
상기 제1 기준 시점 및 상기 타겟 시점 간의 시간 차이에 기초하여 제1 가중치를 결정하고,
상기 제2 기준 시점 및 상기 타겟 시점 간의 시간 차이에 기초하여 제2 가중치를 결정하는,
전자 장치. - 제1항에 있어서,
상기 프로세서는,
상기 제1 특징 데이터 및 상기 제2 특징 데이터에 기초하여 기본 특징 보간 데이터를 생성하고,
상기 특징 보간 데이터 및 추가 LOD(level of detail)에 대응하는 추가 특징 보간 데이터에 기초하여 상기 시공간 특징 데이터를 결정하는,
전자 장치. - 제7항에 있어서,
상기 프로세서는,
상기 기본 특징 보간 데이터 및 상기 추가 특징 보간 데이터를 결합(concatenate)함으로써 상기 시공간 특징 데이터를 결정하는,
전자 장치. - 제7항에 있어서,
상기 프로세서는,
상기 추가 LOD에 대응하는 복수의 추가 특징 추출 모델들에 기초하여, 상기 타겟 시점 및 상기 타겟 지점에 대응하는 추가 특징 데이터들을 추출하고,
상기 추출된 추가 특징 데이터들에 기초하여 상기 추가 특징 보간 데이터를 생성하는,
전자 장치. - 제9항에 있어서,
상기 프로세서는,
상기 복수의 추가 특징 추출 모델들 중 상기 타겟 시점에 기초하여 두 추가 특징 추출 모델들을 선택하고,
상기 선택된 두 추가 특징 추출 모델들을 이용하여 상기 추가 특징 데이터들을 추출하는,
전자 장치. - 제1항에 있어서,
상기 프로세서는,
셋 이상의 기본 특징 추출 모델들 중으로부터 상기 제1 특징 추출 모델 및 상기 제2 특징 추출 모델을 선택하는,
전자 장치. - 제11항에 있어서,
상기 프로세서는,
상기 셋 이상의 기본 특징 추출 모델들 중 상기 타겟 시점에 기초하여 상기 제1 특징 추출 모델 및 상기 제2 특징 추출 모델을 선택하는,
전자 장치. - 제11항에 있어서,
상기 프로세서는,
상기 셋 이상의 기본 특징 추출 모델들에 대응하는 기준 시점들과 상기 타겟 시점 간의 비교에 기초하여, 상기 셋 이상의 기본 특징 추출 모델들로부터 상기 제1 특징 추출 모델 및 상기 제2 특징 추출 모델을 선택하는,
전자 장치. - 제11항에 있어서,
상기 프로세서는,
상기 셋 이상의 기본 특징 추출 모델들에 대응하는 기준 시점들 중 상기 타겟 시점에 시간적으로 인접한 제1 기준 시점에 대응하는 상기 제1 특징 추출 모델 및 제2 기준 시점에 대응하는 상기 제2 특징 추출 모델을 선택하는,
전자 장치. - 제11항에 있어서,
상기 프로세서는,
5개의 기본 특징 추출 모델들로부터 상기 제1 특징 추출 모델 및 상기 제2 특징 추출 모델을 선택하고,
20개의 추가 특징 추출 모델들 중으로부터 2개의 추가 특징 추출 모델들을 선택하는,
전자 장치. - 제1항에 있어서,
상기 제1 특징 추출 모델 및 상기 제2 특징 추출 모델은,
뉴럴 네트워크(neural network) 또는 그리드 기반 표현(grid-based representation)를 포함하는 기계 학습 모델(machine learning model)인,
전자 장치. - 제1항에 있어서,
상기 프로세서는,
뷰 포인트(view point)으로부터 뷰 방향(view direction)을 따른 지점들에 대한 복수의 장면 정보들을 생성하고,
상기 생성된 복수의 장면 정보들에 기초하여, 상기 타겟 시점의 3차원 공간을 상기 뷰 위치에서 바라보는 2차원 장면 중 상기 뷰 방향에 대응하는 픽셀 위치의 픽셀 값을 결정하는,
전자 장치. - 제17항에 있어서,
상기 프로세서는,
상기 2차원 장면에 포함된 모든 픽셀들의 픽셀 값들을 결정함으로써 상기 2차원 장면에 대응하는 2차원 이미지를 생성하는,
전자 장치. - 프로세서로 구현되는 방법에 있어서,
지점 정보(point information) 및 시간 정보(time information)로부터, 제1 특징 추출 모델에 기초하여, 상기 시간 정보에 대응하는 타겟 시점(target time instant)의 3차원 공간 내 상기 지점 정보에 의해 지시되는 타겟 지점에 대한 제1 특징 데이터를 추출하는 단계;
상기 지점 정보 및 상기 시간 정보로부터, 제2 특징 추출 모델에 기초하여, 상기 타겟 시점의 상기 3차원 공간 내 상기 타겟 지점에 대한 제2 특징 데이터를 추출하는 단계;
상기 제1 특징 데이터 및 상기 제2 특징 데이터에 기초하여 시공간 특징 데이터(spacetime feature data)를 획득하는 단계;
상기 시공간 특징 데이터 및 뷰 방향으로부터, 장면 정보 추정 모델에 기초하여, 상기 타겟 시점의 상기 타겟 지점에 대한 장면 정보를 생성하는 단계
를 포함하는 방법. - 제19항의 방법을 수행하기 위한 명령어를 포함하는 하나 이상의 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능 기록 매체.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/312,754 US20240127573A1 (en) | 2022-10-07 | 2023-05-05 | Device and method with two-dimensional scene reconstruction for dynamic three-dimensional space |
CN202310641891.8A CN117876214A (zh) | 2022-10-07 | 2023-06-01 | 用于动态三维空间的二维场景重建的设备和方法 |
EP23179593.1A EP4350631A3 (en) | 2022-10-07 | 2023-06-15 | Device and method with two-dimensional scene reconstruction for dynamic three-dimensional space |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20220128992 | 2022-10-07 | ||
KR1020220128992 | 2022-10-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240049106A true KR20240049106A (ko) | 2024-04-16 |
Family
ID=90882560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220188992A KR20240049106A (ko) | 2022-10-07 | 2022-12-29 | 동적 3차원 공간에 대한 2차원 장면의 복원 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240049106A (ko) |
-
2022
- 2022-12-29 KR KR1020220188992A patent/KR20240049106A/ko unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | InSituNet: Deep image synthesis for parameter space exploration of ensemble simulations | |
Li et al. | Monocular real-time volumetric performance capture | |
CN110084874B (zh) | 对于三维模型的图像风格迁移 | |
CN111369681B (zh) | 三维模型的重构方法、装置、设备及存储介质 | |
KR20220081261A (ko) | 객체 포즈 추정 방법 및 장치 | |
JP7452698B2 (ja) | 画像間の空間的関係をラベリングする強化学習モデル | |
CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN111881804B (zh) | 基于联合训练的姿态估计模型训练方法、系统、介质及终端 | |
CN112085835B (zh) | 三维卡通人脸生成方法、装置、电子设备及存储介质 | |
CN113158391B (zh) | 多维网络节点分类的可视化方法、系统、设备和存储介质 | |
CN115601511B (zh) | 三维重建方法、装置、计算机设备及计算机可读存储介质 | |
US11830138B2 (en) | Predicting secondary motion of multidimentional objects based on local patch features | |
KR20210058638A (ko) | 이미지 처리 장치 및 방법 | |
Zubić et al. | An effective loss function for generating 3D models from single 2D image without rendering | |
KR20240049017A (ko) | 뉴럴 장면 표현 데이터에 기초한 이미지 생성 장치 및 방법 | |
US20240161391A1 (en) | Relightable neural radiance field model | |
EP4350632A2 (en) | Method and appratus with neural rendering based on view augmentation | |
EP4375943A1 (en) | Device and method with scene component information estimation | |
KR20240117780A (ko) | 장면 표현을 위한 영상 처리 방법과 장치, 및 장면 표현을 위한 신경망 모델의 트레이닝 방법 | |
US20220180548A1 (en) | Method and apparatus with object pose estimation | |
KR20240049106A (ko) | 동적 3차원 공간에 대한 2차원 장면의 복원 장치 및 방법 | |
US11836221B2 (en) | Systems and methods for refined object estimation from image data | |
KR20240020922A (ko) | 장면 표현 방법 및 장치 | |
EP4350631A2 (en) | Device and method with two-dimensional scene reconstruction for dynamic three-dimensional space | |
EP4320595A1 (en) | System and method for point cloud generation |