KR102648938B1 - 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치 - Google Patents

기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치 Download PDF

Info

Publication number
KR102648938B1
KR102648938B1 KR1020230048012A KR20230048012A KR102648938B1 KR 102648938 B1 KR102648938 B1 KR 102648938B1 KR 1020230048012 A KR1020230048012 A KR 1020230048012A KR 20230048012 A KR20230048012 A KR 20230048012A KR 102648938 B1 KR102648938 B1 KR 102648938B1
Authority
KR
South Korea
Prior art keywords
image
consistency
warp
ground truth
radiation field
Prior art date
Application number
KR1020230048012A
Other languages
English (en)
Inventor
김승룡
곽민섭
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Application granted granted Critical
Publication of KR102648938B1 publication Critical patent/KR102648938B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/06Ray-tracing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • G06T3/4076Super resolution, i.e. output image resolution higher than sensor resolution by iteratively correcting the provisional high resolution image using the original low-resolution image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

본 발명은 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치를 개시한다. 본 발명에 따르면, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 소정 장면에 대한 소수 샷에 해당하는 N개 시점에서의 실측 이미지를 입력 받고, 신경 방사장 모델 기반으로 하나 이상의 새로운 시점(unseen viewpoint)에서의 제1 이미지 및 제1 깊이 맵을 획득하고, 상기 제1 깊이 맵을 이용하여 상기 실측 이미지를 상기 새로운 시점으로 워프(warp)하여 제1 워프 이미지를 획득하고, 복수의 레이어를 포함하는 컨볼루션 네트워크를 이용하여 상기 제1 이미지 및 상기 제1 워프 이미지 각각의 특징 맵을 추출하고, 상기 각각의 특징 맵에 서로 다른 시점에서의 기하학적 불일치 영역을 무시하기 위한 일관성 마스크를 적용하고, 상기 일관성 마스크가 적용된 상기 제1 이미지 및 제1 워프 이미지의 특징 맵 사이의 일관성 손실을 이용하여 상기 신경 방사장 모델이 상기 제1 이미지가 상기 제1 워프 이미지를 따르게 학습하여 상기 소정 장면에 상응하는 3차원 이미지를 재구성하도록, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장한 3차원 이미지 재구성 장치가 제공된다.

Description

기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치{Method and apparatus for 3D image reconstruction based on few-shot neural radiance fields using geometric consistency}
본 발명은 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치에 관한 것이다.
3차원 물체를 신경 방사장(Neural Radiance Fields, NeRF)으로 표현하는 것은 최근 새로운 시점 합성(novel view synthesis) 및 3차원 재구성을 위한 강력한 접근법으로 입증되었다.
NeRF는 3차원 이미지 재구성 작업을 위해 간단한 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 아키텍처에 체적 렌더링(volumetric rendering)을 사용해 신경 방사장에 3차원 공간을 과적합(overfitting) 시킨 후 이를 새로운 시점에서 물체의 이미지를 형성하는 새로운 시점 합성에 활용한다.
이와 같은 neural implicit representation의 탁월한 성능을 기반으로 한 다양한 후속 연구가 촉진되었는데, 여기에는 Nerfies와 같은 동적이고 변형 가능한 장면을 모델링 한 네트워크와, Plenoctree와 KiloNeRF와 같은 실시간 고속 렌더링 모델이 존재한다. 생성 모델링 또한 GRAF와 GIRAFFE와 같은 생성 네트워크에서 NeRF로 모델링되었다.
NeRF는 인상적인 성능에도 불구하고 최적화를 위해 다수의 밀도가 높고 잘 분산된 보정된 이미지를 필요로 하므로 적용 가능성이 제한된다. 반면 이미지의 개수가 제한된 소수 샷(few-shot) 환경으로 제한될 때, NeRF는 입력 이미지에 쉽게 과적합되고 3차원 재구성을 안정적으로 수행할 수 없다.
Few-shot novel view synthesis이라고 하는 이 문제를 직접 해결하는 작업은 이러한 희소 관측 시나리오에서 충실도가 높은 NeRF를 최적화하는 것을 목표로 한다.
이전 연구들은 의미론적 특징, 엔트로피 최소화 또는 normalizing flow를 활용하여 이 작업을 해결하는 것을 시도했지만, 인위적인 fine-tuning 방법의 필요성과 물체의 미세 구조를 재구성할 수 없는 것이 지금까지 적용 가능성을 제한했다.
Alex Yu Vickie Ye Matthew Tancik Angjoo Kanazawa, pixelNeRF: Neural Radiance Fields from One or Few Images, https://arxiv.org/pdf/2012.02190.pdf,arXiv:2012.02190v3 [cs.CV] 30, May, 2021
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 희소 관측 설정에도 불구하고 이전 모델에 비해 부드러운 표면을 렌더링하고 배경에서 artifacts를 줄일 수 있는 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 소수 샷이 제공되는 환경에서 기하학적 일관성을 이용한 신경 방사장 기반 3차원 이미지 재구성 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 소정 장면에 대한 소수 샷에 해당하는 N개 시점에서의 실측 이미지를 입력 받고, 신경 방사장 모델 기반으로 하나 이상의 새로운 시점(unseen viewpoint)에서의 제1 이미지 및 제1 깊이 맵을 획득하고, 상기 제1 깊이 맵을 이용하여 상기 실측 이미지를 상기 새로운 시점으로 워프(warp)하여 제1 워프 이미지를 획득하고, 복수의 레이어를 포함하는 컨볼루션 네트워크를 이용하여 상기 제1 이미지 및 상기 제1 워프 이미지 각각의 특징 맵을 추출하고, 상기 각각의 특징 맵에 서로 다른 시점에서의 기하학적 불일치 영역을 무시하기 위한 일관성 마스크를 적용하고, 상기 일관성 마스크가 적용된 상기 제1 이미지 및 제1 워프 이미지의 특징 맵 사이의 일관성 손실을 이용하여 상기 신경 방사장 모델이 상기 제1 이미지가 상기 제1 워프 이미지를 따르게 학습하여 상기 소정 장면에 상응하는 3차원 이미지를 재구성하도록, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장한 3차원 이미지 재구성 장치가 제공된다.
상기 N은 3 또는 5일 수 있다.
상기 프로그램 명령어들은, 랜덤하게 카메라 시점을 샘플링하고, 상기 카메라 시점에서의 광선 벡터를 패치별로 생성하여 상기 제1 이미지를 획득할 수 있다.
상기 프로그램 명령어들은, 상기 신경 방사장 모델이 상기 새로운 시점에서 출력하는 밀도 값을 이용하여 저해상도 깊이 맵을 획득할 수 있다.
상기 프로그램 명령어들은, 상기 신경 방사장 모델을 통한 체적 렌더링 후, 쌍선형 보간으로 상기 저해상도 깊이 맵을 고해상도의 제1 깊이 맵으로 업샘플링할 수 있다.
상기 프로그램 명령어들은, 상기 실측 이미지, 상기 제1 이미지 및 상기 워프 이미지의 패치를 이용하여 마스크를 생성하고, 상기 생성된 마스크를 상기 컨볼루션 네트워크의 복수의 레이어 각각이 출력하는 특징 맵에 적용할 수 있다.
상기 프로그램 명령어들은, 픽셀 단위로 소정 지점에 대한 상기 실측 이미지에서의 깊이 및 상기 제1 이미지에서의 깊이 사이의 유클리드 거리가 미리 설정된 임계치를 초과하는 경우 해당 지점을 마스크에 포함되는 지점으로 결정할 수 있다.
상기 프로그램 명령어들은, 상기 실측 이미지에 이미지 그래디언트를 사용하는 엣지 인식 불일치 정규화를 도입할 수 있다.
상기 프로그램 명령어들은, 상기 제1 워프 이미지를 의사 실측 데이터(pseudo ground truth)로 하여 그래디언트 역전파가 상기 제1 이미지를 통해서만 통과하고 상기 제1 워프 이미지에 대해서는 차단되도록 할 수 있다.
본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치에서 소수 샷이 제공되는 환경에서 기하학적 일관성을 이용한 신경 방사장 기반으로 3차원 이미지를 재구성하는 방법으로서, 소정 장면에 대한 소수 샷에 해당하는 N개 시점에서의 실측 이미지를 입력 받는 단계; 신경 방사장 모델 기반으로 하나 이상의 새로운 시점(unseen viewpoint)에서의 제1 이미지 및 제1 깊이 맵을 획득하는 단계; 상기 제1 깊이 맵을 이용하여 상기 실측 이미지를 상기 새로운 시점으로 워프(warp)하여 제1 워프 이미지를 획득하는 단계; 복수의 레이어를 포함하는 컨볼루션 네트워크를 이용하여 상기 제1 이미지 및 상기 제1 워프 이미지 각각의 특징 맵을 추출하는 단계; 상기 각각의 특징 맵에 서로 다른 시점에서의 기하학적 불일치 영역을 무시하기 위한 일관성 마스크를 적용하는 단계; 및 상기 일관성 마스크가 적용된 상기 제1 이미지 및 제1 워프 이미지의 특징 맵 사이의 일관성 손실을 이용하여 상기 신경 방사장 모델이 상기 제1 이미지가 상기 제1 워프 이미지를 따르게 학습하여 상기 소정 장면에 상응하는 3차원 이미지를 재구성하는 단계를 포함하는 3차원 이미지 재구성 장치가 제공된다.
본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램이 제공된다.
본 발명에 따르면, 희소 관측 설정에서 미세한 세부 정보를 캡처할 수 있고, 희소 관측 설정에도 불구하고 이전 모델에 비해 부드럽게 표면을 렌더링하고 배경에서 artifacts를 줄이는데 더 높은 안정성을 보여주는 장점이 있다.
도 1은 본 발명의 바람직한 일 실시예에 따른 소수 샷이 제공되는 환경에서 기하학적 일관성을 이용한 신경 방사장 기반 3차원 이미지 재구성 과정을 도시한 도면이다.
도 2는 본 발명의 바람직한 일 실시예에 따른 기하학적 일관성을 고려하는 NeRF 프레임워크를 도시한 도면이다.
도 3은 NeRF가 기하학적 불일치가 있는 영역을 무시하기 위한 일관성 마스크를 나타낸 도면이다.
도 4는 본 실시예에 따른 마스크 생성 과정을 설명하기 위한 도면이다.
도 5는 본 실시예에 따른 3차원 재구성 이미지의 성능을 나타낸 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 각 도면을 참조하여 설명하는 실시예의 구성 요소가 해당 실시예에만 제한적으로 적용되는 것은 아니며, 본 발명의 기술적 사상이 유지되는 범위 내에서 다른 실시예에 포함되도록 구현될 수 있으며, 또한 별도의 설명이 생략될지라도 복수의 실시예가 통합된 하나의 실시예로 다시 구현될 수도 있음은 당연하다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일하거나 관련된 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 발명은 NeRF를 통해 생성된 깊이를 이용하여 희소 관측 설정에서 입력 이미지를 새로운 시점으로 워핑(warping)시킨 후 실측 데이터(ground truth)를 이용하여 세밀한 3차원 구조와 고주파 텍스쳐를 학습하도록 하는 모델을 제안한다.
이하에서는, NeRF를 먼저 설명한 후, 본 실시예에 따른 희소 관측 환경에서 3차원 이미지 재구성 과정을 상세하게 설명한다.
NeRF는 장면(scene)을 파라미터 θ가 있는 신경망으로 표현되는 연속 함수 로 표현하며, 여기서 점들은 신경망에서 평가하기 위해 r로 표현되는 광선(ray)을 따라 샘플링된다.
일반적으로 샘플링된 좌표 및 시점 방향 는 위치 인코딩 에 의해 푸리에 특징으로 변환되어 고주파 세부 사항의 학습을 용이하게 한다.
신경망 는 아래와 같이, 변환된 좌표 γ(x)와 시점 방향 γ(d)를 입력으로 하여 시점 불변 밀도 값 과 시점 의존 색상 값 을 출력한다.
로 파라미터화된 광선을 사용하여 카메라 중심 o에서 방향 를 따르는 픽셀 p를 통한 색상은 다음과 같이 렌더링된다.
여기서 에서 까지의 광선 를 따라 픽셀 p에서 예측된 색상 값이고, 에서 t까지의 광선에 따른 누적 투과율을 나타낸다. 신경망 를 최적화하기 위해 관측 손실 는 렌더링된 색상 값이 실측 색상 값 과 일치하도록 강제한다.
여기서 R은 훈련 광선의 배치를 나타낸다.
i번째 시점의 이미지를 라 하고, 몇 번의 새로운 시점 합성에서 NeRF에는 작은 N(예: N = 3 또는 N = 5)을 갖는 에 대한 희소 이미지(소수 샷) 만 제공된다.
새로운 시점 합성의 목적은 j번째 보이지 않는 또는 새로운 시점에서 이미지 를 복구하는데 사용할 수 있는 매핑 함수 를 훈련하는 것이다.
위에서 설명한 것처럼 가 주어진 소수 샷 설정에서 픽셀 단위 재구성 손실 만으로 를 직접 최적화하는 것은 시점 의존 효과를 모델링할 수 없기 때문에 네트워크를 개선하기 위한 추가 정규화가 요구된다.
도 1은 본 발명의 바람직한 일 실시예에 따른 소수 샷이 제공되는 환경에서 기하학적 일관성을 이용한 신경 방사장 기반 3차원 이미지 재구성 과정을 도시한 도면이다.
도 1에 전체적인 과정은 프로세서 및 메모리를 포함하는 장치에서 수행될 수 있다.
여기서, 프로세서는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그 밖에 가상 머신 등을 포함할 수 있다.
메모리는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.
본 실시예에 메모리에는 프로그램 명령어들이 저장되며, 프로그램 명령어들은, 소정 장면에 대한 소수 샷에 해당하는 N개 시점에서의 실측 이미지를 입력 받고, 신경 방사장 모델 기반으로 하나 이상의 새로운 시점(unseen viewpoint)에서의 제1 이미지 및 제1 깊이 맵을 획득하고, 상기 제1 깊이 맵을 이용하여 상기 실측 이미지를 상기 새로운 시점으로 워프(warp)하여 제1 워프 이미지를 획득하고, 복수의 레이어를 포함하는 컨볼루션 네트워크를 이용하여 상기 제1 이미지 및 상기 제1 워프 이미지 각각의 특징 맵을 추출하고, 상기 각각의 특징 맵에 서로 다른 시점에서의 기하학적 불일치 영역을 무시하기 위한 일관성 마스크를 적용하고, 상기 일관성 마스크가 적용된 상기 제1 이미지 및 제1 워프 이미지의 특징 맵 사이의 일관성 손실을 이용하여 상기 신경 방사장 모델이 상기 제1 이미지가 상기 제1 워프 이미지를 따르게 학습하여 상기 소정 장면에 상응하는 3차원 이미지를 재구성한다.
여기서, 실측 이미지는 소스 시점 이미지, 제1 이미지는 타겟 시점 이미지로 정의될 수 있고, 본 실시예에 따른 프로그램 명령어들은, 랜덤하게 카메라 시점을 샘플링하고, 카메라 시점에서의 광선 벡터를 패치별로 생성하여 상기 제1 이미지를 획득한다.
본 실시예에 따르면 일관된 모양과 형상을 생성하기 위한 를 위해 기하학적 일관성을 강화하는 새로운 정규화 기술을 제안한다.
깊이 기반 워핑(warping) 및 일관성 모델링을 통해 다양한 시점에서 본 실시예에 따른 NeRF 프레임워크는 본질적으로 컬러 이미지뿐만 아니라 깊이 이미지(깊이 맵)도 렌더링한다.
알려진 시점과의 차이와 결합된 렌더링된 깊이 맵은 임의의 두 시점 간에 기하학적 일치 관계를 정의하는데 사용될 수 있다.
본 실시예는 보이지 않는 시점 j에서 NeRF 모델에 의해 렌더링된 깊이 맵 를 고려한다.
깊이 맵 와 시점 차이 에 따라 이미지 를 워프하는 워핑 함수 를 공식화함으로써 워프 이미지 및 j번째 보이지 않는 시점에서 렌더링된 이미지 간의 일관성을 촉진하여 소수 샷 환경에서 새로운 시점 합성 성능을 향상시킬 수 있다.
이하에서는, 본 실시예에 따른 프레임워크에서 입력 이미지가 보이지 않는 시점으로 어떻게 워핑되는지를 설명한다. 그런 다음 정규화를 위해 워프 이미지와 렌더링된 이미지 쌍에 일관성을 부여하는 방법을 설명하고 폐색(occlusion) 처리 방법과 소수 샷 환경에서 NeRF 최적화의 안정성에 중요한 것으로 입증된 몇 가지 훈련 전략에 대해 설명한다.
새로운 시점에서 이미지를 렌더링하기 위해, 먼저 랜덤하게 카메라 시점을 샘플링하고 해당 광선 벡터를 패치별로 생성한다.
NeRF가 새로운 시점에서의 광선을 따라 샘플링된 지점의 밀도 및 색상 값을 출력하므로 복구된 밀도 값을 사용하여 일관된 깊이 맵을 렌더링한다.
원점에서 이동한 거리의 가중 구성으로 광선당 깊이 값을 공식화한다.
픽셀 p에 상응하는 광선 로 파라미터화되므로 깊이 렌더링은 색상 렌더링과 유사하게 정의된다.
여기서 는 광선 를 따라 예측된 깊이이다.
도 1에 도시된 바와 같이, 렌더링된 깊이 맵 를 사용하여 입력 실측 이미지 를 j번째 보이지 않는 시점으로 역 워핑(inverse Warping)하여 워프 이미지 를 획득하고, 이는 로 정의된다.
보다 구체적으로, 보이지 않은 새로운 시점 이미지(타겟 시점 이미지)의 픽셀 위치 는 시점 차이 및 카메라 고유 파라미터 K에 의해 실측 이미지(소스 시점 이미지)에서 로 변환되어 다음과 같이 표현된다.
여기서 ~는 대략적인 동등성을 나타내고 투영 좌표 는 연속 값이다. 미분 가능한 샘플러를 사용하여 에서 의 색상 값을 추출한다. 보다 공식적으로 변환 컴포넌트 프로세스는 다음과 같이 표현할 수 있다.
여기서 sampler(·)는 쌍선형(bilinear) 샘플링 연산자이다.
NeRF 체적 렌더링으로 전체 이미지를 렌더링하는 것은 계산 복잡도가 높고 시간이 오래 걸린다.
전체 이미지 렌더링 및 워핑의 계산 병목 현상을 극복하기 위해 광선을 스트라이드 그리드에서 샘플링하여 스트라이드 s를 갖는 패치를 생성하며, 본 실시예에서는 s를 2로 설정한다.
체적 렌더링을 거친 후 쌍선형 보간으로 저해상도 깊이 맵을 다시 원래 해상도의 깊이 맵으로 업샘플링한다.
전체 해상도 깊이 맵은 역 워핑에 사용된다. 이렇게 하면 원래 크기의 광선 배치를 렌더링할 때 필요한 계산 비용의 일부만으로 전체 해상도의 세부적으로 워프 패치를 생성할 수 있다.
이하에서는 일괄성 모델링을 설명한다.
j번째 시점에서 렌더링된 패치 와 깊이 맵 및 시점 차이 에 상응하는 워프 패치 가 주어지면, 전역적으로 일관된 렌더링을 위한 추가 정규화를 위해 이들 사이의 일관성을 정의한다.
실행 가능한 옵션 중 하나는 다음과 같이 간단하게 픽셀별 이미지 재구성 손실(pixel-wise image reconstruction loss) 를 적용하는 것이다.
그러나 이러한 간단한 적용은 시점에 따라 모양이 크게 변하는 반사 비 램버시안 표면(reflectant non-Lambertian surfaces)에서 실패를 일으키는 경향이 있다.
또한 폐색 및 아티팩트와 같은 기하학 관련 문제는 보이지 않는 시점에서 정규화를 위해 픽셀 단위 이미지 재구성 손실을 상기와 같이 적용하는 것이 바람직하다.
이러한 문제를 극복하기 위해 본 실시예에서는 시점 의존 방사 효과는 무시하면서 구조적 일관성을 장려하는 마스킹된 특징 수준 정규화 손실을 제안한다.
도 2는 본 발명의 바람직한 일 실시예에 따른 기하학적 일관성을 고려하는 NeRF 프레임워크를 도시한 도면이다.
도 2를 참조하면, 이미지 가 입력으로 주어졌을 때, 번째 레이어가 채널 깊이 를 갖는과 같은 다단계 특징 맵을 추출하기 위해 컨벌루션 네트워크를 사용한다.
워프 이미지 와 렌더링된 이미지 사이의 특징 수준 일관성을 측정하기 위해 번째 레이어에서 특징 맵을 추출하고 동일한 레이어에서 추출된 각 특징 맵 사이의 차이를 계산한다.
워프 이미지 를 의사 실측 데이터(pseudo ground truth)로 사용한다는 아이디어에 따라 그래디언트 역전파가 렌더링된 이미지를 통해서만 통과하도록 허용하고 워프 이미지에 대해 차단되도록 한다.
특징 맵의 여러 수준에서 일관성 손실을 적용하여 가 의미론적 및 구조적 수준 모두에서 를 따르게 모델링하도록 한다.
이에 따른 일관성 손실 는 다음과 같이 정의된다.
손실 함수 에 대해 작업에 가장 적합한 거리 함수를 찾고 이를 사용하여 특징 맵 차이에서 일관성을 계산한다.
경험적으로, 특징 차이의 절대값을 축소하는 정규화 레이어의 부재로 인해 VGG-19 네트워크가 모델링 일관성에서 최상의 성능을 제공한다는 것을 발견했다.
따라서 본 실시예에서는 모든 모델에서 VGG19 네트워크를 특징 추출기 네트워크 로 사용한다.
본 실시예에 따른 손실 함수는 네트워크에 로컬 구조적 수준에서도 매우 풍부한 정보를 제공할 수 있다. 즉, 높은 수준의 기능 일관성만 제공하는 기존 방식과 달리 특징 차이 계산을 위해 여러 수준의 컨볼루션 네트워크를 사용하는 방법은 높은 수준의 의미적 일관성에서 낮은 수준의 구조적 일관성에 이르기까지 모든 수준의 혼합할 수 있다.
잘못된 기하학적 정보로 인해 발생하는 불완전하고 왜곡된 워핑이 모델에 영향을 미쳐 전체 재구성 품질을 저하시키는 것을 방지하기 위해 본 실시예에 따르면, 도 3에서와 같이 NeRF가 기하학적 불일치가 있는 영역을 무시하도록 일관성 마스크 을 구성한다.
이미지에 마스크를 적용하는 대신 특징 추출기 네트워크에 입력하기 전에 가장 가까운 이웃 다운 샘플링을 사용하여 번째 레이어 출력의 차원과 일치하도록 만든 후 크기 조정된 마스크 을 특징 맵에 직접 적용한다.
타겟 시점(시점 j)과 소스 시점(시점 i)에서 렌더링된 깊이 값 간의 일관성을 측정하여 을 생성한다.
여기서 [·]는 아이버슨 브래킷(Iverson bracket)이고, 는 j번째 시점의 재투영된 타겟 픽셀 에 대한 소스 시점 i의 대응 픽셀을 가리킨다.
여기에서 임계값 마스킹의 기준으로 타겟 및 소스 시점에서 렌더링된 깊이 지점 사이, 즉 픽셀 단위로 소정 지점에 대한 실측 이미지(소스 시점 이미지)에서의 깊이 및 제1 이미지(타겟 시점 이미지)에서의 깊이 사이의 유클리드 거리의 유클리드 거리를 측정한다.
본 실시예는 상기 실측 이미지, 제1 이미지 및 워프 이미지의 패치를 이용하여 마스크를 생성하고, 상기와 같이 생성된 마스크를 컨볼루션 네트워크의 복수의 레이어 각각이 출력하는 특징 맵에 적용한다.
또한, 픽셀 단위로 소정 지점에 대한 상기 실측 이미지에서의 깊이 및 상기 제1 이미지에서의 깊이 사이의 유클리드 거리가 미리 설정된 임계치를 초과하는 경우 해당 지점을 마스크에 포함되는 지점으로 결정하는 방식으로 마스크를 생성한다.
도 4에서와 같이 두 지점 사이의 거리가 주어진 임계값 τ보다 크면 두 개의 광선을 개별 표면의 렌더링 깊이로 결정하고 시점 에서 해당 픽셀을 마스크 처리한다.
상기한 과정은 렌더링된 픽셀과 동일한 크기의 마스크 을 생성하기 위해 시점 의 모든 픽셀에서 일어난다. 이를 통해 특징 수준에서 문제가 있는 부분을 필터링하고 신뢰도가 높은 이미지 특징만으로 NeRF를 정규화한다.
이를 기반으로 일관성 손실 는 다음과 같이 확장된다.
여기서 은 0이 아닌 값의 합이다.
본 실시예는 NeRF에 의해 렌더링된 깊이의 품질에 의존하기 때문에 최적화를 용이하게 하기 위해 렌더링된 깊이에 추가 정규화를 도입한다. 또한 임의로 샘플링된 입력 시점 패치 내에서 차이 구배에 페널티를 도입하여 렌더링된 장면의 로컬 깊이 평활도를 개선한다.
또한, 본 실시예에서는 깊이 맵의 깊이 불연속성이 컬러 이미지의 그래디언트에 정렬될 가능성이 있다는 사실을 고려하여 불일치 값에 가중치를 부여하기 위해 이미지 그래디언트 를 사용하여 엣지 인식 불일치 정규화(Edge-aware disparity regularization)를 도입하며, 이는 다음과 같다.
여기서 는 평균 정규화 역 깊이(mean-normalized inverse depth)이며, 이는 추정 깊이의 축소를 방지한다.
도 5는 본 실시예에 따른 3차원 재구성 이미지의 성능을 나타낸 도면이다.
도 5를 참조하면, 3차원 이미지에서 본 실시예에 따른 방법이 이전 방법에 비해 미세한 세부 사항(예: 마이크 장면의 와이어)을 더 강건하게 캡처하고 더 적은 아티팩트(재료 장면의 배경)를 생성하는 것을 확인할 수 있다.
본 실시예에 따른 3차원 이미지 재구성 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 3차원 이미지 재구성 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 3차원 이미지 재구성 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims (12)

  1. 소수 샷이 제공되는 환경에서 기하학적 일관성을 이용한 신경 방사장 기반 3차원 이미지 재구성 장치로서,
    프로세서; 및
    상기 프로세서에 연결되는 메모리를 포함하되,
    상기 메모리는,
    소정 장면에 대한 소수 샷에 해당하는 N개 시점에서의 실측 이미지를 입력 받고,
    신경 방사장 모델 기반으로 하나 이상의 새로운 시점(unseen viewpoint)에서의 제1 이미지 및 제1 깊이 맵을 획득하고,
    상기 제1 깊이 맵을 이용하여 상기 실측 이미지를 상기 새로운 시점으로 워프(warp)하여 제1 워프 이미지를 획득하고,
    복수의 레이어를 포함하는 컨볼루션 네트워크를 이용하여 상기 제1 이미지 및 상기 제1 워프 이미지 각각의 특징 맵을 추출하고,
    상기 각각의 특징 맵에 서로 다른 시점에서의 기하학적 불일치 영역을 무시하기 위한 일관성 마스크를 적용하고,
    상기 일관성 마스크가 적용된 상기 제1 이미지 및 제1 워프 이미지의 특징 맵 사이의 일관성 손실을 이용하여 상기 신경 방사장 모델이 상기 제1 이미지가 상기 제1 워프 이미지를 따르게 학습하여 상기 소정 장면에 상응하는 3차원 이미지를 재구성하도록,
    상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하되,
    상기 프로그램 명령어들은,
    상기 실측 이미지, 상기 제1 이미지 및 상기 워프 이미지의 패치를 이용하여 상기 일관성 마스크를 생성하고,
    상기 일관성 마스크를 상기 컨볼루션 네트워크의 복수의 레이어 각각이 출력하는 특징 맵에 적용하고,
    픽셀 단위로 소정 지점에 대한 상기 실측 이미지에서의 깊이 및 상기 제1 이미지에서의 깊이 사이의 유클리드 거리가 미리 설정된 임계치를 초과하는 경우 해당 지점을 상기 일관성 마스크에 포함되는 지점으로 결정하고,
    상기 실측 이미지에 이미지 그래디언트를 사용하는 엣지 인식 불일치 정규화를 도입하며,
    상기 제1 워프 이미지를 의사 실측 데이터(pseudo ground truth)로 하여 그래디언트 역전파가 상기 제1 이미지를 통해서만 통과하고 상기 제1 워프 이미지에 대해서는 차단되도록 하는 3차원 이미지 재구성 장치.
  2. 제1항에 있어서,
    상기 N은 3 또는 5인 3차원 이미지 재구성 장치.
  3. 제1항에 있어서,
    상기 프로그램 명령어들은,
    랜덤하게 카메라 시점을 샘플링하고, 상기 카메라 시점에서의 광선 벡터를 패치별로 생성하여 상기 제1 이미지를 획득하는 3차원 이미지 재구성 장치.
  4. 제1항에 있어서,
    상기 프로그램 명령어들은,
    상기 신경 방사장 모델이 상기 새로운 시점에서 출력하는 밀도 값을 이용하여 저해상도 깊이 맵을 획득하는 3차원 이미지 재구성 장치.
  5. 제4항에 있어서,
    상기 프로그램 명령어들은,
    상기 신경 방사장 모델을 통한 체적 렌더링 후, 쌍선형 보간으로 상기 저해상도 깊이 맵을 고해상도의 제1 깊이 맵으로 업샘플링하는 3차원 이미지 재구성 장치.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 프로세서 및 메모리를 포함하는 장치에서 소수 샷이 제공되는 환경에서 기하학적 일관성을 이용한 신경 방사장 기반으로 3차원 이미지를 재구성하는 방법으로서,
    소정 장면에 대한 소수 샷에 해당하는 N개 시점에서의 실측 이미지를 입력 받는 단계;
    신경 방사장 모델 기반으로 하나 이상의 새로운 시점(unseen viewpoint)에서의 제1 이미지 및 제1 깊이 맵을 획득하는 단계;
    상기 제1 깊이 맵을 이용하여 상기 실측 이미지를 상기 새로운 시점으로 워프(warp)하여 제1 워프 이미지를 획득하는 단계;
    복수의 레이어를 포함하는 컨볼루션 네트워크를 이용하여 상기 제1 이미지 및 상기 제1 워프 이미지 각각의 특징 맵을 추출하는 단계;
    상기 각각의 특징 맵에 서로 다른 시점에서의 기하학적 불일치 영역을 무시하기 위한 일관성 마스크를 적용하는 단계; 및
    상기 일관성 마스크가 적용된 상기 제1 이미지 및 제1 워프 이미지의 특징 맵 사이의 일관성 손실을 이용하여 상기 신경 방사장 모델이 상기 제1 이미지가 상기 제1 워프 이미지를 따르게 학습하여 상기 소정 장면에 상응하는 3차원 이미지를 재구성하는 단계를 포함하되,
    상기 일관성 마스크를 적용하는 단계는,
    상기 실측 이미지, 상기 제1 이미지 및 상기 워프 이미지의 패치를 이용하여 상기 일관성 마스크를 생성하는 단계; 및
    상기 일관성 마스크를 상기 컨볼루션 네트워크의 복수의 레이어 각각이 출력하는 특징 맵에 적용하는 단계를 포함하되,
    상기 일관성 마스크를 생성하는 단계는,
    픽셀 단위로 소정 지점에 대한 상기 실측 이미지에서의 깊이 및 상기 제1 이미지에서의 깊이 사이의 유클리드 거리가 미리 설정된 임계치를 초과하는 경우 해당 지점을 상기 일관성 마스크에 포함되는 지점으로 결정하는 단계를 포함하고,
    상기 3차원 이미지를 재구성하는 단계는, 상기 실측 이미지에 이미지 그래디언트를 사용하는 엣지 인식 불일치 정규화를 도입하는 단계; 및
    상기 제1 워프 이미지를 의사 실측 데이터(pseudo ground truth)로 하여 그래디언트 역전파가 상기 제1 이미지를 통해서만 통과하고 상기 제1 워프 이미지에 대해서는 차단되도록 하는 단계를 포함하는 3차원 이미지 재구성 방법.
  11. 제10항에 있어서,
    상기 제1 깊이 맵을 획득하는 단계는,
    상기 신경 방사장 모델이 상기 새로운 시점에서 출력하는 밀도 값을 이용하여 저해상도 깊이 맵을 획득하는 단계; 및
    상기 신경 방사장 모델을 통한 체적 렌더링 후, 쌍선형 보간으로 상기 저해상도 깊이 맵을 고해상도의 제1 깊이 맵으로 업샘플링하는 단계를 포함하는 3차원 이미지 재구성 방법.
  12. 제10항에 따른 방법을 수행하는 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.

KR1020230048012A 2023-02-15 2023-04-12 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치 KR102648938B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20230020095 2023-02-15
KR1020230020095 2023-02-15

Publications (1)

Publication Number Publication Date
KR102648938B1 true KR102648938B1 (ko) 2024-03-19

Family

ID=90483102

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230048012A KR102648938B1 (ko) 2023-02-15 2023-04-12 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102648938B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022182421A1 (en) * 2021-02-24 2022-09-01 Google Llc Color and infra-red three-dimensional reconstruction using implicit radiance function
KR20220140402A (ko) * 2021-04-08 2022-10-18 구글 엘엘씨 신규 뷰 합성을 위한 신경 블렌딩

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022182421A1 (en) * 2021-02-24 2022-09-01 Google Llc Color and infra-red three-dimensional reconstruction using implicit radiance function
KR20220140402A (ko) * 2021-04-08 2022-10-18 구글 엘엘씨 신규 뷰 합성을 위한 신경 블렌딩

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Alex Yu et al., pixelNeRF: Neural Radiance Fields from One or Few Images, arXiv:2012.02190v3 [cs.CV] 30, May, 2021* *
Alex Yu Vickie Ye Matthew Tancik Angjoo Kanazawa, pixelNeRF: Neural Radiance Fields from One or Few Images, https://arxiv.org/pdf/2012.02190.pdf,arXiv:2012.02190v3 [cs.CV] 30, May, 2021
Clement et al., Unsupervised Monocular Depth Estimation with Left-Right Consistency, arXiv:1609.03677v3 [cs.CV] 12, Apr, 2017* *
Mohammad et al., GeoNeRF: Generalizing NeRF with Geometry Priors, arXiv:2111.13539v2 [cs.CV] 21, Mar, 2022* *

Similar Documents

Publication Publication Date Title
Park et al. Transformation-grounded image generation network for novel 3d view synthesis
Kalantari et al. Learning-based view synthesis for light field cameras
Lyu et al. Neural radiance transfer fields for relightable novel-view synthesis with global illumination
Chen et al. Geometry-guided progressive nerf for generalizable and efficient neural human rendering
WO2022198684A1 (en) Methods and systems for training quantized neural radiance field
Mandal et al. Depth map restoration from undersampled data
CN112991537B (zh) 城市场景重建方法、装置、计算机设备和存储介质
US11403807B2 (en) Learning hybrid (surface-based and volume-based) shape representation
Wang et al. Flow supervision for deformable nerf
CN115601511A (zh) 三维重建方法、装置、计算机设备及计算机可读存储介质
CN117274515A (zh) 基于ORB和NeRF映射的视觉SLAM方法及系统
US20110012910A1 (en) Motion field texture synthesis
Nouduri et al. Deep realistic novel view generation for city-scale aerial images
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法
Gupta et al. A robust and efficient image de-fencing approach using conditional generative adversarial networks
CN115147426B (zh) 基于半监督学习的模型训练与图像分割方法和系统
KR102648938B1 (ko) 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치
US20230145498A1 (en) Image reprojection and multi-image inpainting based on geometric depth parameters
CN115239559A (zh) 一种融合视图合成的深度图超分辨率方法及系统
Boss et al. Deep Dual Loss BRDF Parameter Estimation.
Teng et al. Blind face restoration via multi-prior collaboration and adaptive feature fusion
Chen et al. MoCo‐Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary Monocular Cameras
Metzer et al. Z2p: Instant visualization of point clouds
Le et al. Appearance flow completion for novel view synthesis
US20230177722A1 (en) Apparatus and method with object posture estimating

Legal Events

Date Code Title Description
GRNT Written decision to grant