KR102380563B1 - 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치 - Google Patents

단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치 Download PDF

Info

Publication number
KR102380563B1
KR102380563B1 KR1020200066458A KR20200066458A KR102380563B1 KR 102380563 B1 KR102380563 B1 KR 102380563B1 KR 1020200066458 A KR1020200066458 A KR 1020200066458A KR 20200066458 A KR20200066458 A KR 20200066458A KR 102380563 B1 KR102380563 B1 KR 102380563B1
Authority
KR
South Korea
Prior art keywords
video
light field
synthesizing
lightfield
monocular
Prior art date
Application number
KR1020200066458A
Other languages
English (en)
Other versions
KR20210149425A (ko
Inventor
박인규
배규호
이반
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020200066458A priority Critical patent/KR102380563B1/ko
Publication of KR20210149425A publication Critical patent/KR20210149425A/ko
Application granted granted Critical
Publication of KR102380563B1 publication Critical patent/KR102380563B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/557Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Processing Or Creating Images (AREA)

Abstract

단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치가 제시된다. 일 실시예에 따른 컴퓨터로 구현된 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치를 이용한 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법은, 입력된 단안 비디오 프레임으로부터 특징을 추출하는 단계; 추출된 상기 특징을 사용하여 딥러닝 네트워크를 기반으로 시간 t에서의 각 SAI(sub-aperture image)에 대응되는 어피어런스 플로우(appearance flow)를 추정하는 단계; 및 bilinear sampler module을 통해 추정한 상기 어피어런스 플로우(appearance flow)로부터 라이트필드 비디오를 합성하는 단계를 포함하여 이루어질 수 있다.

Description

단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치{5D LIGHT FIELD VIDEO SYNTHESIS METHOD AND APPARATUS FROM MONOCULAR VIDEO}
아래의 실시예들은 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치에 관한 것으로, 더욱 상세하게는 단일 영상이 아닌 단안 비디오로부터 5차원 라이트필드 비디오를 합성하는 방법 및 장치에 관한 것이다.
라이트필드(Light Field) 영상은 기존의 기법들과는 다르게 픽셀의 축적된 강도가 아닌 다양한 방향에서의 빛의 정보를 취득함으로써 한 장의 영상만으로 깊이 영상 추정(image depth estimation), 영상 재 초점(refocusing), 돌출 객체 검출, 시점 이동(view-point change) 등의 다양한 영상처리가 가능하다는 장점이 있다.
일반적으로 라이트필드 영상은 마이크로 렌즈 배열을 이용한 플렌옵틱 (plenoptic) 카메라 또는 다중 카메라 배열을 사용하여 취득한다. 그러나, 현재 사용 가능한 상용 라이트필드 카메라는 정지 영상만을 취득하거나 가격이 매우 높다는 단점으로 인하여 5 차원 라이트필드 비디오 취득에 어려움이 있다. 예컨대, 일반 사용자가 사용 가능하던 Lytro사의 카메라는 더 이상 지원이 되지 않는다. 유일하게 남아있는 Raytrix 카메라는 라이트필드 비디오 촬영이 가능하지만 산업 형장에서 사용하기 위한 고가의 제품으로 일반 사용자가 사용하기에 어려움이 따른다.
P. Srinivasan, T. Wang, A. Sreelal, R. Ramamoorthi, and R. Ng, "Learning to synthesize a 4d rgbd light field from a single image," In Proc. of IEEE International Conference on Computer Vision, pages 2243-2251, 2017. A. Ivan and I. K. Park, "Synthesizing a 4d spatio-angular consistent light field from a single image," arXiv preprint arXiv: 1903.12364, 2019. A. Geiger, P. Lenz, and R. Urtasun, "Are we ready for autonomous driving? the kitti vision benchmark suite," In Proc. of IEEE Conference on Computer Vision and Pattern Recognition, pages 3354-3361, 2012. Williem, I. K. Park, and K. M. Lee, "Robust light field depth estimation using occlusion-noise aware data costs," IEEE Trans. On Pattern Analysis and Machine Intelligence, 40(10):2484-2497, 2017.
실시예들은 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치에 관하여 기술하며, 보다 구체적으로 단일 영상이 아닌 단안 비디오로부터 5차원 라이트필드 비디오를 합성하는 기술을 제공한다.
실시예들은 라이트필드 비디오 학습 데이터를 취득하기 어려운 문제를 해결하기 위하여 UnrealCV를 활용하여 3차원 그래픽 장면의 사실적 렌더링에 의한 합성 라이트필드 데이터를 취득하고 이를 학습에 사용할 수 있는 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치를 제공하는데 있다.
일 실시예에 따른 컴퓨터로 구현된 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치를 이용한 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법은, 입력된 단안 비디오 프레임으로부터 특징을 추출하는 단계; 추출된 상기 특징을 사용하여 딥러닝 네트워크를 기반으로 시간 t에서의 각 SAI(sub-aperture image)에 대응되는 어피어런스 플로우(appearance flow)를 추정하는 단계; 및 bilinear sampler module을 통해 추정한 상기 어피어런스 플로우(appearance flow)로부터 라이트필드 비디오를 합성하는 단계를 포함하여 이루어질 수 있다.
추출된 상기 특징을 사용하여 딥러닝 네트워크를 기반으로 광학 플로우를 획득한 후 상기 라이트필드 비디오에 시간적 일관성을 부여하는 단계를 더 포함할 수 있다.
상기 입력된 단안 비디오 프레임으로부터 특징을 추출하는 단계는, 입력된 단안 비디오 프레임으로부터 특징을 추출하기 위해 초기 특징 추정 인코더(encoder)를 사용해 초기 특징을 추정하는 단계; 및 상기 초기 특징을 추정한 후, 상관관계 계층을 통과하여 상관관계 정보와 초기 특징들을 결합하여 최종 특징을 추정하는 단계를 포함할 수 있다.
상기 어피어런스 플로우(appearance flow)로부터 라이트필드를 합성하는 단계는, bilinear sampler module을 통해 입력 영상을 각 angular domain 좌표에 따라 angular 이동 상수에 비례한 수치만큼 영상의 화소 좌표를 이동시킨 영상에 추정한 상기 어피어런스 플로우(appearance flow)를 워핑(warping)하여 시간 t에서의 라이트필드 비디오를 획득할 수 있다.
상기 어피어런스 플로우(appearance flow)로부터 라이트필드를 합성하는 단계는, 합성한 초기 라이트필드의 품질을 향상시키기 위해 상기 초기 라이트필드의 분산 영상을 활용해 이진 마스크를 형성하고, 라이트필드의 분산 영상은 장면의 폐색 영역(occlusion region)의 정보를 나타내는 상기 라이트필드의 분산 영상을 활용하여 3D CNN(Convolutional Neural Network)으로 이루어진 폐색 네트워크(occlusion network)를 구성하여 최종 라이트필드를 합성할 수 있다.
다른 실시예에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치는, 입력된 단안 비디오 프레임으로부터 특징을 추출하는 특징 추출부; 추출된 상기 특징을 사용하여 딥러닝 네트워크를 기반으로 시간 t에서의 각 SAI(sub-aperture image)에 대응되는 어피어런스 플로우(appearance flow)를 추정하는 어피어런스 플로우 추정부; 및 bilinear sampler module을 통해 추정한 상기 어피어런스 플로우(appearance flow)로부터 라이트필드를 합성하는 라이트필드 합성부를 포함하여 이루어질 수 있다.
추출된 상기 특징을 사용하여 딥러닝 네트워크를 기반으로 광학 플로우를 획득한 후 상기 라이트필드 비디오에 시간적 일관성을 부여하는 시간 일관성 제공부를 더 포함할 수 있다.
실시예들에 따르면 라이트필드 비디오 학습 데이터를 취득하기 어려운 문제를 해결하기 위하여 UnrealCV를 활용하여 3차원 그래픽 장면의 사실적 렌더링에 의한 합성 라이트필드 데이터를 취득하고 이를 학습에 사용할 수 있는 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치를 제공할 수 있다.
실시예들에 따르면 합성 라이트필드 데이터를 활용해 단안 비디오로부터 시간적으로 일관적인 9×9의 SAI를 갖는 5차원 라이트필드 비디오를 합성할 수 있고, 합성 라이트필드 데이터를 사용해 학습한 네트워크로 3차원 그래픽 장면 외에 실제 장면으로 이루어진 데이터에 대해서도 시간적으로 일관적인 라이트필드 비디오를 합성해 낼 수 있는, 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치를 제공할 수 있다.
도 1은 일 실시예에 따른 라이트필드 비디오 프레임 합성 결과를 나타내는 도면이다.
도 2는 일 실시예에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법을 나타내는 흐름도이다.
도 3은 일 실시예에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치를 나타내는 블록도이다.
도 4는 일 실시예에 따른 딥러닝 프레임워크를 나타내는 도면이다.
도 5는 일 실시예에 따른 KITTI 데이터셋에 대한 정성적 평가를 나타내는 도면이다.
이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
현재 사용 가능한 상용 라이트필드 카메라는 정지 영상만을 취득하거나 가격이 매우 높다는 단점으로 인하여 5차원 라이트필드 비디오 취득에 어려움이 있다. 이러한 문제점을 해결하기 위해 본 실시예에서는 단안 비디오로부터 라이트필드 비디오를 합성하기 위한 딥러닝 기반 기법을 제안한다.
실시예들에 따르면 가상 환경 데이터를 구성하며 이를 위해 UnrealCV를 활용하여 3차원 그래픽 장면의 사실적 렌더링에 의한 합성 라이트필드 데이터를 취득하고 이를 학습에 사용함으로써, 라이트필드 비디오 학습 데이터를 취득하기 어려운 문제를 해결할 수 있다. 제안하는 딥러닝 네트워크는 입력 단안 비디오에서 9×9의 각 SAI(su sub-aperture image)를 갖는 라이트필드 비디오를 합성할 수 있다.
도 1은 일 실시예에 따른 라이트필드 비디오 프레임 합성 결과를 나타내는 도면이다.
본 실시예에서는 단일 영상이 아닌 단안 비디오로부터 5차원 라이트필드 비디오를 합성하는 기법을 제안한다. 도 1을 참조하면, 가상 장면(synthetic scene)과 실제 장면(actual scene)에서 라이트필드 비디오 프레임을 합성한 결과를 나타내며, (a)는 합성된 라이트필드 비디오 프레임을 나타내고, (b)는 추정한 깊이 정보를 나타내며, (c)는 추정한 어피어런스 플로우(appearance flow)를 나타낸다. 실시예들에 따르면 가상 장면으로 이루어진 데이터셋으로 학습했음에도 불구하고 실제 장면에서 라이트필드 비디오 프레임을 합성할 수 있다.
한편, 컴퓨터 비전 분야에서 다양하게 활용되고 있는 딥러닝 기반 영상 처리 기법들은 각각의 기법에서 제안하는 네트워크를 학습하기 위해 다량의 영상 데이터를 요구한다. 하지만 특정한 목적에 맞는 영상 데이터를 취득하기엔 어려움이 많으며 특히 다량의 데이터가 요구되는 경우에는 더 많은 어려움이 따른다. 여기에서는 이러한 한계점을 극복하기 위해 여러 연구에서 그 효용성을 보인 사실적 그래픽 렌더링에 의한 가상 환경 데이터를 활용한다.
가상 환경 데이터를 구성하기 위해 Unreal Engine을 기반으로 하는 UnrealCV를 활용할 수 있다. 해당 기법을 활용하여 9×9의 angular domain을 갖는 라이트필드 데이터를 취득하였으며 학습에 사용된 가상 환경은 실재 도시와 유사한 외관을 가진 2개의 환경을 사용하였다. 2개의 환경은 UnrealCV에서 제공하는 가상 환경과 본 실시예에서 직접 구성한 환경으로 구성되어 있다. 각 환경에서 구성된 도로를 따라 카메라를 이동하며 총 1,818장의 9×9의 SAI로 구성된 라이트필드 비디오 데이터를 취득하였다.
본 실시예들은 다음과 같은 주요 특징을 갖는다.
실시예들은 5차원 라이트필드 비디오를 합성하는 엔드 투 엔드(end-to-end) 딥러닝 프레임워크를 제공할 수 있다. 또한, 실시예들은 딥러닝 기반 라이트필드 합성에 필요한 데이터셋의 희소성을 극복한 새로운 가상 환경을 구축하고 데이터를 취득할 수 있다. 그리고, 실시예들은 가상 환경으로 학습한 모델을 이용하여 실제 장면에 대한 라이트필드 비디오 합성 가능성을 확인할 수 있다.
도 2는 일 실시예에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법을 나타내는 흐름도이다.
도 2를 참조하면, 일 실시예에 따른 컴퓨터로 구현된 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치를 이용한 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법은, 입력된 단안 비디오 프레임으로부터 특징을 추출하는 단계(S110), 추출된 특징을 사용하여 딥러닝 네트워크를 기반으로 시간 t에서의 각 SAI(sub-aperture image)에 대응되는 어피어런스 플로우(appearance flow)를 추정하는 단계(S120), 및 bilinear sampler module을 통해 추정한 어피어런스 플로우(appearance flow)로부터 라이트필드 비디오를 합성하는 단계(S130)를 포함하여 이루어질 수 있다.
추출된 특징을 사용하여 딥러닝 네트워크를 기반으로 광학 플로우를 획득한 후 라이트필드 비디오에 시간적 일관성을 부여하는 단계(S140)를 더 포함할 수 있다.
아래에서 일 실시예에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법을 예를 들어 설명한다.
일 실시예에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법의 각 단계는 일 실시예에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치를 예를 들어 보다 구체적으로 설명할 수 있다.
도 3은 일 실시예에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치를 나타내는 블록도이다.
도 3을 참조하면, 일 실시예에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치(300)는 특징 추출부(310), 어피어런스 플로우 추정부(320) 및 라이트필드 합성부(330)를 포함하여 이루어질 수 있다. 실시예에 따라 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치(300)는 시간 일관성 제공부(340)를 더 포함할 수 있다.
단계(S110)에서, 특징 추출부(310)는 입력된 단안 비디오 프레임으로부터 특징을 추출할 수 있다.
보다 구체적으로, 특징 추출부(310)는 단일 영상이 아닌 입력된 단안 비디오 프레임으로부터 특징을 추출하기 위해 초기 특징 추정 인코더(encoder)를 사용해 초기 특징을 추정할 수 있다. 그리고, 특징 추출부(310)는 초기 특징을 추정한 후, 상관관계 계층을 통과하여 상관관계 정보와 초기 특징들을 결합하여 최종 특징을 추정할 수 있다.
단계(S120)에서, 어피어런스 플로우 추정부(320)는 추출된 특징을 사용하여 딥러닝 네트워크를 기반으로 시간 t에서의 각 SAI(sub-aperture image)에 대응되는 어피어런스 플로우(appearance flow)를 추정할 수 있다.
단계(S130)에서, 라이트필드 합성부(330)는 bilinear sampler module을 통해 추정한 어피어런스 플로우(appearance flow)로부터 라이트필드를 합성할 수 있다.
라이트필드 합성부(330)는 bilinear sampler module을 통해 입력 영상을 각 angular domain 좌표에 따라 angular 이동 상수에 비례한 수치만큼 영상의 화소 좌표를 이동시킨 영상에 추정한 어피어런스 플로우(appearance flow)를 워핑(warping)하여 시간 t에서의 라이트필드 비디오를 획득할 수 있다.
또한, 라이트필드 합성부(330)는 합성한 초기 라이트필드의 품질을 향상시키기 위해 초기 라이트필드의 분산 영상을 활용해 이진 마스크를 형성하고, 라이트필드의 분산 영상은 장면의 폐색 영역(occlusion region)의 정보를 나타내는 라이트필드의 분산 영상을 활용하여 3D CNN(Convolutional Neural Network)으로 이루어진 폐색 네트워크(occlusion network)를 구성하여 최종 라이트필드를 합성할 수 있다.
단계(S140)에서, 시간 일관성 제공부(340)는 추출된 특징을 사용하여 딥러닝 네트워크를 기반으로 광학 플로우를 획득한 후 라이트필드 비디오에 시간적 일관성을 부여할 수 있다.
아래에서 일 실시예에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치를 보다 구체적으로 설명한다.
도 4는 일 실시예에 따른 딥러닝 프레임워크를 나타내는 도면이다.
도 4를 참조하면, 일 실시예에 따른 전체 딥러닝 프레임워크(400)는 입력 비디오로부터 특징을 추정하는 영역(410), 5차원 라이트필드 비디오를 합성하는 영역(420), 그리고 라이트필드 비디오에 시간적 일관성을 부여하는 영역(430)으로 나누어질 수 있다. 여기서, 입력 비디오로부터 특징을 추정하는 영역(410)은, 도 3에서 설명한 특징 추출부(310)에 의해 수행될 수 있으며, 입력 비디오로부터 9×9의 각 SAI에 대응되는 어피어런스 플로우(appearance flow)를 추정하는 네트워크를 포함할 수 있다. 또한, 5차원 라이트필드 비디오를 합성하는 영역(420)은 도 3에서 설명한 어피어런스 플로우 추정부(320) 및 라이트필드 합성부(330)에 의해 수행될 수 있고, 라이트필드 비디오에 시간적 일관성을 부여하는 영역(430)은 도 3에서 설명한 시간 일관성 제공부(340)에 의해 수행될 수 있다.
실시예들은 입력 단안 비디오 L(x,0,t)로부터 5차원 라이트필드 비디오 L(x,u,t)를 합성하는 기술을 제안한다.
라이트필드 비디오 합성
특징 추출부(310)는 입력 단안 비디오 프레임으로부터 특징을 추출하기 위해 초기 특징 추정 인코더(encoder)
Figure 112020056669457-pat00001
을 사용해 초기 특징
Figure 112020056669457-pat00002
을 추정할 수 있다. 또한, 특징 추출부(310)는 초기 특징을 추정한 뒤 상관관계 계층을 통과하여 상관관계 정보와 초기 특징들을 결합하여 최종 특징
Figure 112020056669457-pat00003
를 추정할 수 있다. 특징 추정 영역은 다음 수학식 1 및 수학식 2와 같이 표현할 수 있다.
[수학식 1]
Figure 112020056669457-pat00004
[수학식 2]
Figure 112020056669457-pat00005
수학식 1의
Figure 112020056669457-pat00006
는 최종 특징 추정 인코더(encoder)를 나타내며,
Figure 112020056669457-pat00007
는 시간 t에서
Figure 112020056669457-pat00008
의 4번째 계층에서의 특징 활성화를 나타낸다.
어피어런스 플로우 추정부(320)는 추정한 최종 특징 맵
Figure 112020056669457-pat00009
을 사용하여 시간 t에서의 각 SAI(sub-aperture image)에 대응되는 appearance flow Lf(x,u,t)를 추정할 수 있다. 그리고, 라이트필드 합성부(330)는 추정한 appearance flow로부터 초기 라이트필드
Figure 112020056669457-pat00010
를 합성할 수 있다. 초기 라이트필드를 합성하는 과정은 다음 수학식 3 내지 수학식 5와 같이 나타낼 수 있다.
[수학식 3]
Figure 112020056669457-pat00011
[수학식 4]
Figure 112020056669457-pat00012
[수학식 5]
Figure 112020056669457-pat00013
여기서, Ls(x,u,t)는 입력 영상을 각 angular domain 좌표에 따라 angular 이동 상수에 비례한 수치만큼 영상의 화소 좌표를 이동시킨 영상을 나타내며,
Figure 112020056669457-pat00014
는 appearance flow 추정 디코더(decoder)를 나타내고, B는 Ls(x,u,t)와 Lf(x,u,t)를 워핑(warping)하는 bilinear sampler module을 나타낸다. 그리고, Lf(x,u,t)는 appearance flow를 추정하는 네트워크로부터 얻은 시간 t에서의 각 SAI에 대응되는 appearance flow을 나타낸다.
라이트필드 합성부(330)는 bilinear sampler module B를 통해 Ls(x,u,t)에 Lf(x,u,t)를 워핑(warping)하여 시간 t에서의 라이트필드 영상
Figure 112020056669457-pat00015
을 얻을 수 있다. appearance flow를 추정하는 네트워크를 학습하기 위해 라이트필드 평균, 분산 영상을 사용한 손실함수
Figure 112020056669457-pat00016
를 사용하여 학습할 수 있다.
또한, 라이트필드 합성부(330)는 합성한 초기 라이트필드
Figure 112020056669457-pat00017
의 품질을 향상시키기 위해
Figure 112020056669457-pat00018
의 분산 영상을 활용해 이진 마스크를 형성할 수 있다. 라이트필드의 분산 영상은 장면의 폐색 영역(occlusion region)의 정보를 나타내므로, 이를 활용해 3D CNN(Convolutional Neural Network)으로 이루어진 폐색 네트워크(occlusion network)를 구성하여 최종 라이트필드 L(x,u,t)을 합성할 수 있으며, 다음 식과 같이 나타낼 수 있다.
[수학식 6]
Figure 112020056669457-pat00019
라이트필드 비디오 합성 네트워크를 학습하기 위해 사용한 손실 함수는 다음 식과 같이 정의될 수 있다.
[수학식 7]
Figure 112020056669457-pat00020
한편, 시간 일관성 제공부(340)는 추출된 특징을 사용하여 딥러닝 네트워크를 기반으로 광학 플로우를 획득한 후, 라이트필드 비디오에 시간적 일관성을 부여할 수 있다.
실시예들에 따라 제안된 기법은 합성 라이트필드 데이터를 활용해 딥러닝 네트워크를 학습하고 학습된 네트워크로부터 appearance flow를 얻은 뒤 이를 사용해 라이트필드를 합성하며, 마찬가지로 학습된 네트워크로부터 광학 플로우를 얻은 뒤 이를 사용해 시간적 일관성을 부여할 수 있다.
실험 결과 및 분석
제안하는 기법과 비교할 기존의 최신 기술(state-of-the-art)로 비특허문헌 1 및 비특허문헌 2를 선택하였다. 정량적 평가를 위해 필요한 실측 자료(ground truth) 라이트필드 비디오 데이터의 부재로 인하여 본 실시예에서 구성한 합성 라이트필드 비디오 데이터를 사용한다. 사용한 비디오 데이터는 학습에 사용되지 않은 데이터이며, 이를 사용해 평균 PSNR(Peak Signal-to-Noise Ratio) 및 SSIM(Structural Similarity Index Map) 측면에서 평가한 결과를 표 1에 나타내었다.
표 1은 실험용 데이터셋에 대한 평균 PSNR(dB) 및 SSIM을 나타낸다.
[표 1]
Figure 112020056669457-pat00021
표 1을 참조하면, 서로 다른 실험용 데이터에 대해서 제안하는 기법(Proposed)이 PSNR, SSIM 측면에서 우월함을 보이는 것을 확인할 수 있다.
도 5는 일 실시예에 따른 KITTI 데이터셋에 대한 정성적 평가를 나타내는 도면이다.
도 5를 참조하면, 실제 장면의 데이터인 KITTI(비특허문헌 3) 데이터에 대하여 정성적인 평가를 수행할 수 있다. 정성적인 평가를 수행하기 위해 CAE(비특허문헌 4) 기법을 사용해 합성한 라이트필드 영상에서 깊이 영상을 추정하여 도 5와 같이 나타내었다.
여기서, 도 5는 서로 다른 두 개의 입력 비디오에 대하여 8개의 연속적인 샘플 비디오 프레임, 합성한 라이트필드 영상에서 추정한 깊이 영상과 EPI를 각 기법별로 나타내었다.
비특허문헌 1의 경우, 시점간 변화 정도가 부족함을 볼 수 있고, 장면에서 정확한 깊이 영상을 추정하는데 실패함을 볼 수 있다. 비특허문헌 2의 경우, 장면에서 정확한 appearance flow를 추정하는데 실패하여 각 angular domain에서 일관적이지 않은 라이트필드를 합성함을 볼 수 있다. 또한, 비특허문헌 1, 2의 두 기법 모두 시간적으로 일관성 있는 라이트필드 비디오를 합성하는데 실패했음을 깊이 영상의 일관적이지 않은 모습을 통해 알 수 있다.
이상과 같이, 실시예들에 따른 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치는 합성 라이트필드 데이터를 활용해 단안 비디오로부터 시간적으로 일관적인 9×9의 SAI를 갖는 5차원 라이트필드 비디오를 합성할 수 있다. 실험 결과를 통해 합성 라이트필드 데이터를 사용해 학습한 네트워크로 3차원 그래픽 장면 외에 실제 장면으로 이루어진 데이터에 대해서도 시간적으로 일관적인 라이트필드 비디오를 합성해 낼 수 있음을 확인하였다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (7)

  1. 컴퓨터로 구현된 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치를 이용한 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법에 있어서,
    입력된 단안 비디오 프레임으로부터 특징을 추출하는 단계;
    추출된 상기 특징을 사용하여 딥러닝 네트워크를 기반으로 시간 t에서의 각 SAI(sub-aperture image)에 대응되는 어피어런스 플로우(appearance flow)를 추정하는 단계; 및
    bilinear sampler module을 통해 추정한 상기 어피어런스 플로우(appearance flow)로부터 라이트필드 비디오를 합성하는 단계
    를 포함하고,
    상기 어피어런스 플로우(appearance flow)로부터 라이트필드를 합성하는 단계는,
    합성한 초기 라이트필드의 품질을 향상시키기 위해 상기 초기 라이트필드의 분산 영상을 활용해 이진 마스크를 형성하고, 라이트필드의 분산 영상은 장면의 폐색 영역(occlusion region)의 정보를 나타내는 상기 라이트필드의 분산 영상을 활용하여 3D CNN(Convolutional Neural Network)으로 이루어진 폐색 네트워크(occlusion network)를 구성하여 최종 라이트필드를 합성하는 것
    을 특징으로 하는, 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법.
  2. 제1항에 있어서,
    추출된 상기 특징을 사용하여 딥러닝 네트워크를 기반으로 광학 플로우를 획득한 후 상기 라이트필드 비디오에 시간적 일관성을 부여하는 단계
    를 더 포함하는, 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 어피어런스 플로우(appearance flow)로부터 라이트필드를 합성하는 단계는,
    bilinear sampler module을 통해 입력 영상을 각 angular domain 좌표에 따라 angular 이동 상수에 비례한 수치만큼 영상의 화소 좌표를 이동시킨 영상에 추정한 상기 어피어런스 플로우(appearance flow)를 워핑(warping)하여 시간 t에서의 라이트필드 비디오를 획득하는 것
    을 특징으로 하는, 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법.
  5. 삭제
  6. 입력된 단안 비디오 프레임으로부터 특징을 추출하는 특징 추출부;
    추출된 상기 특징을 사용하여 딥러닝 네트워크를 기반으로 시간 t에서의 각 SAI(sub-aperture image)에 대응되는 어피어런스 플로우(appearance flow)를 추정하는 어피어런스 플로우 추정부; 및
    bilinear sampler module을 통해 추정한 상기 어피어런스 플로우(appearance flow)로부터 라이트필드를 합성하는 라이트필드 합성부
    를 포함하고,
    상기 라이트필드 합성부는,
    합성한 초기 라이트필드의 품질을 향상시키기 위해 상기 초기 라이트필드의 분산 영상을 활용해 이진 마스크를 형성하고, 라이트필드의 분산 영상은 장면의 폐색 영역(occlusion region)의 정보를 나타내는 상기 라이트필드의 분산 영상을 활용하여 3D CNN(Convolutional Neural Network)으로 이루어진 폐색 네트워크(occlusion network)를 구성하여 최종 라이트필드를 합성하는 것
    을 특징으로 하는, 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치.
  7. 제6항에 있어서,
    추출된 상기 특징을 사용하여 딥러닝 네트워크를 기반으로 광학 플로우를 획득한 후 상기 라이트필드 비디오에 시간적 일관성을 부여하는 시간 일관성 제공부
    를 더 포함하는, 단안 비디오로부터의 5차원 라이트필드 비디오 합성 장치.
KR1020200066458A 2020-06-02 2020-06-02 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치 KR102380563B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200066458A KR102380563B1 (ko) 2020-06-02 2020-06-02 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200066458A KR102380563B1 (ko) 2020-06-02 2020-06-02 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210149425A KR20210149425A (ko) 2021-12-09
KR102380563B1 true KR102380563B1 (ko) 2022-03-31

Family

ID=78866407

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200066458A KR102380563B1 (ko) 2020-06-02 2020-06-02 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102380563B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102555165B1 (ko) * 2022-10-04 2023-07-12 인하대학교 산학협력단 단안 비디오에서 뉴럴 레이디언스 기반의 라이트필드 합성 방법 및 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102052564B1 (ko) * 2018-03-09 2019-12-05 한국과학기술원 라이트 필드 이미지의 깊이 추정 방법 및 장치
RU2690757C1 (ru) * 2018-08-21 2019-06-05 Самсунг Электроникс Ко., Лтд. Система синтеза промежуточных видов светового поля и способ ее функционирования

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Andre Ivan 등, Joint Spatial and Angular Super-Resolution from a Single Image, arXiv:1911.11619v1.(2019.11.23.)
Andre Ivan 등, Synthesizing a 4D Spatio-Angular Consistent Light Field from a Single Image, arXiv:1903.12364v1.(2019.03.29.)*
TING-CHUN WANG 등, Light Field Video Capture Using a Learning-Based Hybrid Imaging System, arXiv:1705.02997v1.(2017.05.08.)*

Also Published As

Publication number Publication date
KR20210149425A (ko) 2021-12-09

Similar Documents

Publication Publication Date Title
Gao et al. Dynamic view synthesis from dynamic monocular video
Xu et al. Deep image matting
EP3698323B1 (en) Depth from motion for augmented reality for handheld user devices
Fischer et al. Flownet: Learning optical flow with convolutional networks
CN110799991B (zh) 用于使用卷积图像变换执行同时定位和映射的方法和系统
WO2019149206A1 (zh) 深度估计方法和装置、电子设备、程序和介质
US8433157B2 (en) System and method for three-dimensional object reconstruction from two-dimensional images
EP3997662A1 (en) Depth-aware photo editing
Hua et al. Holopix50k: A large-scale in-the-wild stereo image dataset
KR20180132946A (ko) 멀티-뷰 장면 분할 및 전파
Sanches et al. Mutual occlusion between real and virtual elements in augmented reality based on fiducial markers
US10785469B2 (en) Generation apparatus and method for generating a virtual viewpoint image
Chen et al. Background estimation using graph cuts and inpainting
KR102311796B1 (ko) 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치
WO2014208963A1 (ko) 적응적 블록 분할을 이용한 다중 객체 검출 장치 및 방법
Alletto et al. Adherent raindrop removal with self-supervised attention maps and spatio-temporal generative adversarial networks
Pan et al. Depth map completion by jointly exploiting blurry color images and sparse depth maps
Liu et al. Learning to see through obstructions with layered decomposition
KR102380563B1 (ko) 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치
Sharma et al. Neural groundplans: Persistent neural scene representations from a single image
WO2020196520A1 (en) Method, system and computer readable media for object detection coverage estimation
Chae et al. Siamevent: Event-based object tracking via edge-aware similarity learning with siamese networks
KR102334730B1 (ko) 라이트필드 초해상도와 블러 제거의 동시 수행을 위한 적대적 신경망 모델 장치 및 그 동작 방법
KR20220133766A (ko) 멀티뷰 어안 렌즈들을 이용한 실시간 전방위 스테레오 매칭 방법 및 그 시스템
Simoni et al. Future urban scenes generation through vehicles synthesis

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right