KR102658359B1 - 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법 - Google Patents

라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법 Download PDF

Info

Publication number
KR102658359B1
KR102658359B1 KR1020190099834A KR20190099834A KR102658359B1 KR 102658359 B1 KR102658359 B1 KR 102658359B1 KR 1020190099834 A KR1020190099834 A KR 1020190099834A KR 20190099834 A KR20190099834 A KR 20190099834A KR 102658359 B1 KR102658359 B1 KR 102658359B1
Authority
KR
South Korea
Prior art keywords
view
light field
input
disparity
neural network
Prior art date
Application number
KR1020190099834A
Other languages
English (en)
Other versions
KR20200021891A (ko
Inventor
알렉산드르 블라디슬라보비치 시무틴
글렙 세르게비치 밀유코프
콘스탄틴 빅토로비치 콜친
마이클 니콜라에비치 리차고프
세르게이 알렉산드로비치 투르코
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US17/270,276 priority Critical patent/US11533464B2/en
Priority to PCT/KR2019/010564 priority patent/WO2020040521A1/ko
Publication of KR20200021891A publication Critical patent/KR20200021891A/ko
Application granted granted Critical
Publication of KR102658359B1 publication Critical patent/KR102658359B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • H04N13/232Image signal generators using stereoscopic image cameras using a single 2D image sensor using fly-eye lenses, e.g. arrangements of circular lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/557Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Neurology (AREA)
  • Computer Graphics (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Abstract

본 개시에 일 실시예는, 라이트 필드 획득 장치에 의해 수집된 라이트 필드의 특정 입력 뷰의 구성을 선택하는 단계, 합성하고자 하는 중간 뷰의 좌표를 특정하여 신경망에 입력하는 단계, 신경망을 이용하여 장면 디스패리티, 상기 특정 입력 뷰의 선택된 구성 및 상기 특정된 중간 뷰의 좌표에 기초하여 중간 뷰를 합성하는 단계를 포함하는 라이트 필드의 중간 뷰 합성 방법을 제공한다.

Description

라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법{Method for the synthesis of intermediate views of a light field, system for the synthesis of intermediate views of a light field, and method for the compression of a light field}
본 개시의 기술적 사상은 일반적으로 이미징에 관한 것으로, 입력 라이트 필드 뷰(input light filed view)에 기초하여 중간 라이트 필드 뷰(intermediate light field view)를 합성하는 시스템에 관한 것이다.
공간상에서 여러 방향으로 진행하는 빛의 양을 취득하여 생성한 4차원 라이트 필드 영상은 기존의 2차원 영상에 비해 빛의 진행 방향 정보를 추가로 포함하고 있다. 그러므로, 라이트 필드 기술은 이러한 정보를 활용하여 재초점 영상, 3차원 깊이 정보 추정 등 다양한 영상처리를 수행할 수 있다.
최근 들어, 라이트 필드 기술 즉, 서로 다른 뷰로부터 생성한 이미지들의 세트를 제작하는 기술이 널리 보급되어 카메라 및 3차원 디스플레이에 사용되고 있다. 현재, 라이트 필드의 공간-각 해상도를 높이고 라이트 필드의 효과적인 압축을 가능하게 하는 라이트 필드 합성 기술이 개발되었다.
라이트 필드 기술을 지원하는 현대 장치에는 특수 목적의 라이트 필드 생성 카메라('플렌옵틱 카메라' 라고도 함) 또는 라이트 필드를 사용하는 3D 디스플레이가 있다. 이러한 장치는 일반 사용자가 사용하기에 어려운 몇 가지 단점이 있다. 첫째, 플렌옵틱 카메라는 고가이며, 라이트 필드 뷰의 어레이만을 캡쳐할 수 있도록 특화되어 있다. 둘째, 플렌옵틱 카메라는 공간 해상도(spatial resolution)와 각도 해상도(angular resolution) 사이의 트레이드 오프를 가진다. 즉, 플렌옵틱 카메라로 더 많은 라이트 필드 뷰를 생성함으로써 각도 해상도를 증가시키면 각 개별 뷰에 대한 공간 해상도는 감소한다. 셋째, 라이트 필드는 방대한 양의 정보를 포함하고 있기 때문에, 재생 장치에 라이트 필드를 저장하려면 라이트 필드를 효과적으로 압축해야 한다. 따라서, 라이트 필드의 적은 수의 입력 영상으로부터 고품질 및 고해상도의 이미징이 가능한 중간 라이트 필드 뷰 합성(intermediate light field view synthesis) 시스템이 필요하다. 이러한 라이트 필드 뷰 합성 시스템은 예를 들어, 스마트폰, 증강 및 가상 현실 장치 및 3D 디스플레이 또는 PC와 같은 고 생산성(high-productivity) 장치와 같은 모바일 장치에 적용될 수 있다.
본 개시의 다양한 실시예에 따라 3차원 장면 이미지를 재구성하는 데에 필요한 입력 뷰(input view)의 수를 줄이고자 한다.
본 개시의 다양한 실시예에 따라 합성된 라이트 필드 뷰의 결함을 줄임으로써 장면 이미지의 품질을 높이고자 한다
일 실시예는,
라이트 필드 획득 장치에 의해 수집된 라이트 필드의 입력 뷰의 특정 구성을 이용하여 중간 뷰를 합성하는 라이트 필드의 중간 뷰 합성 방법을 제공한다.
상기 중간 뷰 합성 방법은 상기 수집된 라이트 필드의 특정 입력 뷰의 구성을 선택하는 단계, 상기 합성하고자 하는 중간 뷰의 좌표를 특정하여 신경망에 입력하는 단계, 상기 신경망을 이용하여 장면 디스패리티, 상기 특정 입력 뷰의 선택된 구성 및 상기 특정된 중간 뷰의 좌표에 기초하여 중간 뷰를 합성하는 단계를 포함할 수 있다.
상기 특정 입력 뷰의 구성은 상기 획득 장치에 의해 수집된 라이트 필드 매트릭스에서의 입력 뷰의 좌표에 의해 정의될 수 있다.
상기 라이트 필드 매트릭스의 크기는 M
Figure 112019083726404-pat00001
M(M은 양수)이고,
상기 입력 뷰의 좌표는 상기 M
Figure 112021114680759-pat00002
M 크기의 매트릭스의 첫 번째 및 마지막 번째 행에 포함된 지점과 첫 번째 및 마지막 번째 열에 포함된 지점에 대응되는 좌표일 수 있다.
상기 M이 홀수인 경우에는, 상기 지점은 상기 행 또는 열에서 중간 지점을 의미하고, 상기 M이 짝수인 경우에는, 상기 지점은 상기 행 또는 열에서 중간 지점에 가장 가까운 지점을 의미할 수 있다.
상기 중간 뷰의 좌표는 정수 또는 분수로 표현될 수 있다.
상기 중간 뷰 합성 방법은 상기 라이트 필드의 특정 입력 뷰의 선택된 구성에 기초하여 라이트 필드 피처맵을 계산하는 단계 및 상기 라이트 필드 피처맵을 기초로, 상기 신경망을 이용하여 상기 장면 디스패리티를 계산하는 단계를 더 포함할 수 있다.
상기 중간 뷰 합성 방법은 뎁스 센서를 이용하여 상기 장면 디스패리티를 미리 추정하는 단계를 더 포함할 수 있다.
상기 중간 뷰 합성 방법은 미리 훈련된 신경망을 이용하여 상기 중간 뷰를 합성하는 단계를 더 포함할 수 있다.
다른 일 실시예는,
라이트 필드 장면의 입력 뷰를 캡쳐하는 라이트 필드 뷰 캡쳐 장치 및 상기 라이트 필드 장면의 입력 뷰, 장면 디스패리티 및 장면 라이트 필드 뷰 어레이에서의 중간 뷰의 특정 좌표에 기초하여 중간 뷰를 합성하는 제1 콘볼루션 신경망 모듈을 포함하는 라이트 필드의 중간 뷰 합성 시스템을 제공한다.
상기 중간 뷰 합성 시스템은 상기 라이트 필드 장면의 입력 뷰에 기초하여 라이트 필드 장면 피쳐맵을 계산하는 제1 계산 모듈, 상기 피쳐맵에 기초하여 장면 디스패리티를 계산하는 제2 콘볼루션 신경망 모듈, {d1, ..., dL}의 디스패리티 레벨 세트를 설정하는 디스패리티 레벨 세팅 모듈, 하기 식을 통해, 각각의 상기 입력 뷰를 이용하여 상기 디스패리티 레벨 각각에 대한 새로운 뷰를 계산하는 제2 계산 모듈 및 각각의 생성된 뷰로부터의 상기 디스패리티 레벨에 대한 상기 픽셀의 컬러 및 밝기의 평균값의 두 가지 특징을 나타내는 피쳐맵을 계산하는 제3 계산 모듈을 더 포함할 수 있다.
(는 특정 디스패리티 레벨 dl 에서의 N개의 입력 뷰 pi 로부터 얻어진 좌표 s = (x, y) 위치의 픽셀에 대한 컬러 값을 의미함)
상기 중간 뷰 합성 시스템은 상기 디스패리티의 예비 추정에 사용되는 깊이 값을 제공하는 뎁쓰 센서를 더 포함할 수 있다.
다른 일 실시예는,
상기 중간 뷰 합성 방법을 수행하는 라이트 필드의 중간 뷰 합성 시스템을 포함하는 모바일 장치를 제공한다.
다른 일 실시예는,
라이트 필드 획득 장치에 의해 수집된 라이트 필드의 특정 입력 뷰의 구성을 선택하는 단계, 상기 제1 내지 제7 항 중 어느 하나의 라이트 필드의 중간 뷰 합성 방법을 이용하여 라이트 필드의 중간 뷰를 합성하는 단계, 적어도 하나의 중간 뷰와 입력 뷰 사이의 차분을 계산하는 단계 및 상기 차분를 압축하는 단계를 포함하는 라이트 필드 압축 방법을 제공한다.
상기 특정 입력 뷰의 구성은 상기 획득 장치에 의해 수집된 라이트 필드 매트릭스에서의 입력 뷰의 좌표에 의해 정의될 수 있다.
본 개시의 다양한 실시예는 3차원 장면 이미지를 재구성하는 데에 필요한 입력 뷰의 수를 줄일 수 있다.
본 개시의 다양한 실시예는 합성된 라이트 필드 뷰의 결함을 줄일 수 있다.
도 1은 카메라 어레이에 의한 여러 시점으로부터의 장면 뷰 어레이 형태의 라이트 필드의 획득 과정을 간략하게 도시한 것이다.
도 2는 기존의 방식에 따라 입력 뷰의 임의의 구성에 기초하여 임의의 수의 중간 뷰의 어레이를 생성하는 과정을 간략하게 도시한 것이다.
도 3은 일 실시예에 따른 신경망을 이용하여 중간 뷰를 합성하는 방법을 간략하게 도시한 것이다.
도 4는 예시적인 입력 뷰의 구성을 간략하게 도시한 것이다.
도 5는 예시적인 입력 뷰의 구성을 간략하게 도시한 것이다.
도 6은 예시적인 입력 뷰의 구성을 간략하게 도시한 것이다.
도 7은 예시적인 입력 뷰의 구성을 간략하게 도시한 것이다.
도 8은 예시적인 입력 뷰의 구성을 간략하게 도시한 것이다.
도 9는 예시적인 입력 뷰의 구성을 간략하게 도시한 것이다.
도 10은 예시적인 입력 뷰의 구성을 간략하게 도시한 것이다.
도 11은 일 실시예에 따른 라이트 필드 압축 알고리즘에 대해 간략하게 도시한 것이다.
도 12는 일 실시예에 따른 압축된 라이트 필드의 재구성 알고리즘에 대해 간략하게 도시한 것이다.
도 13은 일 실시예에 따른 신경망을 이용하여 라이트 필드의 중간 뷰를 합성하는 시스템을 간략하게 도시한 것이다.
도 14는 다른 일 실시예에 따른 신경망을 이용하여 라이트 필드의 중간 뷰를 합성하는 시스템을 간략하게 도시한 것이다.
도 15는 다른 일 실시예에 따른 신경망을 이용하여 라이트 필드의 중간 뷰를 합성하는 시스템을 간략하게 도시한 것이다
아래에서는 첨부한 도면을 참조하여 다양한 실시예에 따른 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법에 대해 상세히 설명한다. 도면에서 동일한 참조부호는 동일한 구성요소를 지칭하며, 각 구성요소의 크기나 두께는 설명의 명료성을 위하여 과장되어 있을 수 있다.
제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
도 1은 카메라 어레이(20)에 의한 여러 시점으로부터의 장면 뷰 어레이 형태의 라이트 필드의 획득 과정을 간략하게 도시한 것이다.
'라이트 필드'는 모든 방향으로부터 공간 상의 모든 포인트를 통해 전파되는 광의 특성을 기술하는 함수를 의미한다. 공간상에서 여러 방향으로 진행하는 빛의 양을 취득함으로써 생성한 라이트 필드 영상은 기존의 2차원 영상과 달리, 광의 방향 정보를 추가적으로 포함하고 있다. 실제로는, 실제 장면(10)을 여러 다른 시점으로부터 촬영하여 얻은, 서로 조금씩 다른 장면들의 뷰 어레이(30)로서 라이트 필드를 표현할 수 있다. 이 경우, 카메라 어레이(20)를 사용하여 라이트 필드를 생성할 수 있다. 또는 플렌옵틱(plenoptic) 카메라에 포함된 마이크로 렌즈 어레이를 사용하여 라이트 필드를 생성할 수도 있다. 장면들의 뷰 어레이(30) 중, 하나의 뷰(40)는 여러 픽셀들을 포함할 수 있다.
한편, 동일한 장면에 대한 두 개의 뷰가 존재하면, 각각의 뷰에서의 이미지를 구성하는 장면 포인트(scene point)들간의 차이를 추정할 수 있다. 예를 들어, 두 개 또는 그 이상의 카메라가 어떤 장면을 촬영하는 경우, 그 장면 내의 하나의 점은 디지털 사진의 서로 다른 위치의 픽셀로 입력된다. 이와 같이 동일한 장면에 대한 하나의 점의 각 카메라에서의 서로 다른 위치의 차이를 디스패리티(disparity)라고 한다. 예를 들어, 왼쪽 카메라에서의 점의 위치 좌표가 (110, 100)이면, 오른쪽 카메라에서의 점의 위치 좌표는 (0, 100)으로 서로 다를 수 있다. '깊이(depth)' 즉, 각각의 점 사이의 거리는 상기 점의 위치의 차이를 통해서 계산될 수 있다. 이러한 디스패리티를 활용하는 기술은 몇 가지 단점을 가지고 있다. 예를 들어, 카메라들 사이의 거리를 정확히 알아야 하는데 이 것은 쉽지 않고, 한 뷰의 픽셀과 정확히 대응하는 다른 뷰의 픽셀을 찾는 것이 필요하다.
현재의 디스패리티 추정 기술은 이미지 내의 물체 사이의 경계에서는 정확하지 않은 경향이 있기 때문에, 이 기술에 기초하여 합성된 중간 뷰는 특정 결함을 가질 수 있다. 이와 같은 디스패리티 계산 오류로 인한 물체의 경계에서의 결함이 발생할 수 있다. 이 경우, 결함은 물체의 가장자리에서의 서로 다른 깊이를 가지는 노이즈일 수 있다. 다시 말해, 물체의 경계에서의 픽셀들은 한 물체의 이미지의 픽셀들의 일부가 다른 물체의 이미지에 포함되는 방식으로 혼합될 수 있다.
2, 4 또는 5 세트의 입력 장면 뷰를 사용하여 장면 뷰를 합성하는 것의 문제점은 디스패리티 맵을 이용하는 본 개시에 따른 다양한 실시예에 의해 해결될 수 있다. 디스패리티 맵은 장면의 적절한 중간 뷰를 생성하기 위해, 입력 장면 뷰들의 각 픽셀을 몇 픽셀씩 이동시켜야 하는지를 나타내는 것이다.
장면의 특정 뷰에 대한 디스패리티 맵은, 상기 장면의 특정 뷰의 각각의 픽셀의 깊이 정보를 이용하여 생성될 수 있다. 이러한 장면의 특정 뷰에 대한 디스패리티 맵은 원하는 장면 뷰를 생성하기 위해 필요하다. 그러나, 고전적인 디스패리티 추정 방법은 장면 뷰의 각 픽셀에 대한 깊이 추정의 복잡성으로 인해, 뷰 내의 경계에서 정확하지 않다.
도 2는 기존의 방식에 따라 입력 뷰의 임의의 구성(50)에 기초하여 임의의 수의 중간 뷰의 어레이(60)를 생성하는 과정을 간략하게 도시한 것이다.
도 2를 참조하면, 플렌옵틱 카메라 등을 이용하여 획득한 입력 뷰의 임의의 구성(50)을 이용하여 임의의 수의 중간 뷰의 어레이(60)를 생성할 수 있다.
전통적인 뷰 합성 기술과는 대조적으로, 본 개시의 다양한 실시예는 신경망을 이용하여 뷰를 합성 방법을 제공한다. 예를 들어, 입력 뷰의 임의의 구성(50)을 신경망에 입력 값으로 제공하면, 신경망은 임의의 수의 연속적인 중간 뷰의 어레이(60)를 생성할 수 있다. 이하에서는 도 3을 참조하여, 신경망을 이용하여 중간 뷰의 어레이(60)를 합성하는 방법에 대해 설명한다.
도 3은 일 실시예에 따른 신경망을 이용하여 중간 뷰를 합성하는 방법을 간략하게 도시한 것이다.
도 3을 참조하면, 일 실시예에 따른 라이트 필드의 중간 뷰 합성 방법은 라이트 필드 획득 장치에 의해 수집된 라이트 필드의 특정 입력 뷰의 구성을 선택하는 단계, 합성하고자 하는 중간 뷰의 좌표를 특정하여 신경망에 입력하는 단계 및 신경망을 이용하여 장면 디스패리티, 특정 입력 뷰의 선택된 구성 및 특정된 중간 뷰의 좌표에 기초하여 중간 뷰를 합성하는 단계를 포함할 수 있다.
도 3의 방법을 이용하는 경우, 중간 뷰를 합성하기 위해 필요한 라이트 필드의 입력 뷰의 개수는 종래 기술에 비해 감소될 수 있다. 도 3은 라이트 필드의 입력 뷰의 예시적인 구성을 보여준다. 라이트 필드의 입력 뷰의 구체적인 구성에 대해서는 도 4 내지 10을 참조하여 후술한다. 입력 뷰의 구성은 라이트 필드 입력 뷰 어레이(또는 매트릭스)에서의 입력 뷰의 좌표에 의해 결정된다. 입력 뷰의 구성은 장면 전체에 걸쳐서 뷰 합성의 품질에 결정적인 영향을 미친다. 적절하게 선택된 입력 뷰의 구성은 깊이와 장면에서의 물체의 관한 정보의 양을 최적화시킬 수 있다. 또한, 적절하게 선택된 입력 뷰의 구성은 물체 이미지의 겹침에 의한 결함을 조절하는 데에 도움이 될 수 있다.
종래에는 고정된 위치의 카메라들의 세트에 대한 뷰를 생성하였다. 그러나, 본 개시의 뷰 합성 방법에 따르면, 가능한 모든 위치의 카메라에 대한 뷰들을 합성할 수 있다. 도 3은 라이트 필드의 입력 뷰의 구성을 처리하는 방법을 보여준다. 사용자에 의해 입력되는 라이트 필드의 이산 데이터(70)에 의해서 시스템 입력에 공급되는 n개(n은 양수)의 오리지널 라이트 필드(71)가 결정될 수 있다. 또한, 합성될 중간 뷰의 좌표(72)도 시스템 입력에 공급될 수 있다. 합성될 중간 뷰의 좌표(72)는 (u, v) 로 표현될 수 있다. 이러한 모든 데이터는 신경망 기반 라이트 필드 중간 뷰 합성 유닛(73)에 공급될 수 있다. 또한, 원하는 중간 뷰는 중간 뷰 합성 유닛(73)의 출력으로서 생성될 수 있다. 한편, 합성될 중간 뷰의 좌표(72)인 (u, v)를 다양하게 특정함으로써, 연속적인 라이트 필드 뷰(75)를 합성할 수 있다.
신경망을 이용한 접근 방법은 디스패리티의 계산을 수정하는 데에 이용될 수 있다. 특히, 사용자는 뷰 합성의 오류를 최소화시키기 위한 디스패리티 맵을 생성하기 위해, 신경망을 훈련시킬 수 있다.
도 3은 임의의 구성(예를 들어, 구성 C2)의 입력 뷰에 기초하여 임의의 수의 중간 뷰를 합성하는 방법을 보여준다. 나아가. 도 3은 플렌옵틱 카메라를 통해 생성된 라이트 필드(즉, 오리지널 라이트 필드(71))는 라이트 필드의 불연속적인 뷰로 구성된 반면에, 합성된 라이트 필드(즉, 연속적인 라이트 필드 뷰(75))는 라이트 필드의 연속적인 뷰의 공간임을 보여준다.
중간 뷰(intermediate view)에 대한 설명은 다음과 같다. 입력 뷰들 각각의 라이트 필드 어레이에서의 좌표가 (1, 1), (1, 7), (7, 7), (7, 1)라고 가정하자. 그러면, 입력 뷰들의 좌표에 의해 둘러싸인 영역 내부의 임의의 좌표, 예를 들어, (4, 5) 좌표의 중간 뷰가 합성될 수 있다. 그러나 이에 한정되는 것은 아니고, 신경망을 통해 합성된 라이트 필드의 중간 뷰에 특정된 좌표는 정수가 아닌 값(예를 들어, (4.1, 5.2))을 가질 수 있다.
한편, 콘볼루션 신경망(Convolutional Neural Network; CNN)은 장면의 공간적 구조(spatial structure)를 고려할 수 있고, 뷰에서 여러 깊이 레벨을 가지는 물체의 겹침을 올바르게 처리할 수 있다. 도 3의 중간 뷰 합성 방법에 따른 라이트 필드 합성 방법은 연속적인 뷰 공간에서 겹쳐진 물체에 대한 결함을 최소화하며 어떠한 뷰라도 생성할 수 있다. 이는 라이트 필드 뷰 매트릭스에서 생성될 원하는 뷰의 좌표를 신경망에 공급함으로써 이루어질 수 있다. 상기 원하는 뷰의 좌표는 임의로 특정될 수 있다. 다시 말해, 원하는 뷰의 좌표는 플렌옵틱 카메라에 의해 생성된 라이트 필드 좌표 세트로부터가 아니라 연속적인 범위의 좌표값으로부터 선택될 수 있다.
도 4 내지 도 10는 예시적인 입력 뷰의 구성(C1 내지 C7)을 간략하게 도시한 것이다.
입력 뷰의 구성은 대칭적인 구조를 포함할 수 있다. 입력 뷰 대칭적인 구성은 신경망이 결함을 최소화하면서 원하는 라이트 필드를 재구성하는 데에 적합할 수 있다. 이처럼, 라이트 필드의 입력 뷰의 구성은 다양한 구조 및 개수를 가질 수 있다.
입력 뷰의 구성 C1은 논문(Nima Khademi Kalantari, Ting-Chun Wang, and Ravi Ramamoorthi. 2016. Learning-based view synthesis for light field cameras. ACM Trans.Graph. 35, 6, Article 193 (November 2016), 10 pages)에 개시된 것이다. 입력 뷰의 구성 C1은 라이트 필드 뷰의 매트릭스의 가장자리 코너 말단에서 선택된 구성으로서, 구성 C1 내지 C7 중에서 가장 많은 결함을 가져온다.
도 5를 참조하면, 입력 뷰의 구성 C2는 소정의 고정된 8 8 크기를 가지는 라이트 필드의 입력 뷰 어레이에서 좌표 (4, 1), (8, 4), (1, 5) 및 (5, 8)에 위치한 뷰들로 이루어진 것이다.
도 6을 참조하면, 입력 뷰의 구성 C3는 소정의 고정된 9 9 크기를 가지는 라이트 필드의 입력 뷰 어레이에서 좌표 (1, 1), (1, 9), (9, 1), (9, 9) 및 (5, 5)에 위치한 뷰들로 이루어진 것이다. 이러한 구성의 장점은 입력 뷰들에 의해 형성된 사각형 내부에서 입력 뷰에 가깝게 배열 된 뷰를 합성해야 할 필요가 있을 경우에 나타납니다.
도 7을 참조하면, 입력 뷰의 구성 C4는 소정의 고정된 9 9 크기를 가지는 라이트 필드의 입력 뷰 어레이에서 좌표 (5, 1), (1, 5), (5, 9), (9, 5) 및 (5, 5)에 위치한 뷰들로 이루어진 것이다.
도 8을 참조하면, 입력 뷰의 구성 C5는 소정의 고정된 8 8 크기를 가지는 라이트 필드의 입력 뷰 어레이에서 좌표 (2, 2), (2, 7), (7, 2) 및 (7, 7)에 위치한 뷰들로 이루어진 것이다. 이러한 구성의 장점은 입력 뷰들에 의해 형성된 사각형 내부 또는 외부에서 입력 뷰에 가깝게 배열 된 뷰를 합성해야 할 필요가 있을 경우에 나타납니다.
도 9를 참조하면, 입력 뷰의 구성 C6는 소정의 고정된 9 9 크기를 가지는 라이트 필드의 입력 뷰 어레이에서 좌표 (2, 2), (2, 8), (8, 2), (8, 8) 및 (5, 5)에 위치한 뷰들로 이루어진 것이다. 이러한 구성의 장점은 입력 뷰들에 의해 형성된 사각형 내부 또는 외부에서 입력 뷰에 가깝게 배열 된 뷰를 합성해야 할 필요가 있을 경우에 나타납니다.
도 10을 참조하면, 입력 뷰의 구성 C7은 소정의 고정된 5 8 크기를 가지는 라이트 필드의 입력 뷰 어레이에서 좌표 (3, 3) 및 (3, 6)에 위치한 뷰들로 이루어진 것이다. 입력 뷰의 구성 C7은 단지 두 개의 구성만을 가진다는 점에서 이점이 있다. 입력 뷰의 구성 C7은 중간 뷰가 초기의 라이트 필드의 단 두 개의 뷰에 기초하여 합성되는 변형(variant)을 고려한다. 이러한 구성 C7은 예를 들어, 두 대의 스마트폰 카메라가 사용되는 경우에 사용될 수 있다.
임의의 M M(M은 양수) 크기의 라이트 필드의 어레이에 대한 입력 뷰 구성 중에서, 구성 C2는 합성된 뷰의 품질 면에 있어서, 구성 C3, 구성 C4 및 구성 C5와 비교하여 가장 훌륭한 결과를 가져온다. 입력 뷰의 구성은 장면 전체에 걸쳐서 뷰 합성의 품질에 결정적인 영향을 미친다. 적절하게 선택된 입력 뷰의 구성은 깊이와 장면 물체에 관한 정보의 양을 최적화시킬 수 있다. 또한, 적절하게 선택된 입력 뷰의 구성은 물체 이미지의 겹침에 의한 결함을 조절하는 데에 도움이 될 수 있다.
디스패리티를 고려하여 픽셀을 이동해야 하는 거리가 짧을수록 합성 이미지의 품질이 높아진다. 그러므로, 합성 이미지의 품질은 고려 중인 뷰로부터 가장 가까운 입력 뷰까지의 거리에 의해 결정된다. 입력 뷰의 구성 C1 및 C2를 이용하여 생성된 중간 뷰에 대해서 이러한 거리를 계산하면, 입력 뷰의 구성 C2에서의 거리가 입력 뷰의 구성 C1에서의 거리보다 작기 때문에, 구성 C2를 이용한 경우가 구성 C1을 이용한 경우에 비하여 합성 이미지의 품질이 높을 수 있다.
M M(M은 양수) 크기의 라이트 필드 어레이로부터의 특정 입력 뷰의 최적화된 구성(예를 들어, 구성 C2)은 라이트 필드 어레이에서의 첫 번째 및 마지막 번째 행에서의 임의의 지점과 첫 번째 및 마지막 번째 열에서의 임의의 지점에 대응되는 좌표에 의해서 결정될 수 있다. 이 경우, 만일 M이 홀수라면, 상기 임의의 지점은 행 또는 열에서 중간 지점을 의미하고, M이 짝수라면, 상기 임의의 지점은 행 또는 열에서 중간 지점에 가장 가까운 지점을 의미할 수 있다.
본 개시의 실시예에 따른 라이트 필드의 중간 뷰를 합성하는 시스템은 데이터 전송 네트워크에서 데이터 전송이 일어나는 동안, 자원 비용을 최소화 하기 위한 라이트 필드의 압축을 위한 알고리즘의 일부를 실현하는 데에 사용될 수 있다.
도 11은 일 실시예에 따른 라이트 필드 압축 알고리즘(1000)에 대해 간략하게 도시한 것이다.
압축 알고리즘(1000)은 입력 뷰 선택 단계(s101), 선택된 입력 뷰를 이용하여 중간 뷰를 합성하는 중간 뷰 합성 단계(s102), 입력 뷰 및 중간 뷰 사이의 차분(difference)을 산출하는 차분 산출 단계(s103), 산출된 차분을 압축하는 차분 압축 단계(s104) 및 압축된 차분을 출력하는 압축 차분 출력 단계(s105)를 포함할 수 있다.
입력 뷰 선택 단계(s101)에서는 라이트 필드의 입력 뷰의 구성 C2에 대응되는 뷰만을 입력 뷰로 선택할 수 있다. 그러나 이에 한정되는 것은 아니고, 입력 뷰의 구성은 다양할 수 있다. 선택된 입력 뷰는 현재 뷰 유닛(current view unit)에 제공될 수 있다. 현재 뷰 유닛은 선택된 입력 뷰를 뷰 처리 유닛(view processing unit)으로 전달할 수 있다.
중간 뷰 합성 단계(s102)에서는 도 1 내지 도 3을 참조하여 설명한 방법을 이용하는 뷰 처리 유닛을 통해 원하는 중간 뷰를 합성할 수 있다. 예를 들어, 중간 뷰 합성 단계(s102)에서는 신경망을 이용하여 특정 입력 뷰를 기반으로 원하는 중간 뷰를 합성할 수 있다.
차분 산출 단계(s103)에서는 차분 산출부(difference calculation unit)를 이용하여 라이트 필드의 입력 뷰와 중간 뷰 사이의 차분을 산출할 수 있다.
차분 압축 단계(s104)에서는 차분 산출 단계(s103)에서 산출된 차분이 이산 코사인 변환(Discrete Cosine Transform; DCT)과 같은 잘 알려진 변환법에 의해서 압축될 수 있다.
압축된 차분 출력 단계(s105)에서는 차분 압축 단계(s104)에서 압축된 차분이 출력될 수 있다. 이 경우, 처리되지 않고 남아 있는 입력 뷰가 존재한다면, 차분 압축 단계(s104)에서 입력 뷰 선택 단계(s101)로 돌아간다. 이와는 반대로, 처리되지 않은 입력 뷰가 더 이상 남아 있이 않다면 압축 알고리즘(1000)은 종료된다.
도 12는 일 실시예에 따른 압축된 라이트 필드의 재구성 알고리즘(2000)에 대해 간략하게 도시한 것이다.
라이트 필드의 재구성 알고리즘(2000)은 도 11의 압축 알고리즘(1000)을 통해 압축된 차분을 현재 차분 유닛(current difference unit)에 제공하는 압축된 차분 제공 단계(s106), 압축된 차분 및 입력 뷰를 이용하여 뷰를 재구성하는 단계(s107), 뷰를 예상하는 단계(s108) 및 재구성된 뷰를 생성하는 단계(s109)를 포함할 수 있다.
압축된 차분 제공 단계(s106)에서는 압축 알고리즘(1000)에서 압축된 차분을 현재 차분 유닛(current difference unit)에 전송할 수 있다. 예를 들어, 압축된 차분은 라이트 필드의 모든 입력 뷰에 대한 재구성이 완료될 때까지 현재 차분 유닛으로 전송될 수 있다.
뷰를 재구성하는 단계(s107)는 합성된 중간 뷰와 입력 뷰 사이의 차분을 재구성하기 위한 계수를 재구성하는 단계를 포함할 수 있다. 입력 뷰는 도 11의 압축 알고리즘(1000)의 입력 뷰 선택 단계(s101)에서 선택된 입력 뷰와 동일할 수 있다. 또한, 뷰를 재구성하는 단계(s107)는 뷰 재구성 유닛(view reconstruction unit)을 이용하여 변환된 차분에 대해 역변환을 수행하는 단계를 포함할 수 있다. 예를 들어, 뷰 재구성 유닛을 이용하여 도 11의 차분 압축 단계(s104)에서 이산 코사인 변환(Discrete Cosine Transform; DCT)을 통해 압축된 차분에 대해 역변환을 수행할 수 있다.
뷰를 예상하는 단계(s108)는 뷰를 재구성하는 단계(s107)에서 얻은 계수 및 역변환된 차분의 결과 값을 신경망에 의해 합성된 라이트 필드 뷰와 합산하는 단계를 포함할 수 있다. 이와 같은 합산하는 단계는 추정된 뷰 유닛(assumed view unit)에 의해 수행될 수 있다.
재구성된 뷰를 생성하는 단계(s109)는 뷰를 예상하는 단계(s108)에서 예상된 뷰를 이용하여 뷰를 재구성할 수 있다. 나아가, 라이트 필드의 재구성된 입력 뷰에 기초하여 모든 중간 뷰를 재구성하기 위해 라이트 필드의 중간 뷰를 합성하는 시스템을 이용하여 라이트 필드의 모든 입력 뷰에 대한 재구성을 완료한 후에, 재구성된 뷰를 생성한 뒤 처리되지 않은 라이트 필드의 입력 뷰를 처리할 수 있다.
도 13은 일 실시예에 따른 신경망을 이용하여 라이트 필드의 중간 뷰를 합성하는 시스템(3000)을 간략하게 도시한 것이다. 도 13에 도시된 신경망 시스템(3000)은 도 5 내지 10에 도시된 입력 뷰의 구성 C2 내지 C7을 이용할 수 있다.
도 13을 참조하면, 중간 뷰 합성 시스템(3000)은 장면 라이트 필드의 입력 뷰(IV)에 기초하여 라이트 필드 장면 피쳐 어레이를 계산하는 제1 계산 모듈(1), 제1 계산 모듈(1)에 의해 계산된 피쳐 어레이에 기초하여 장면 디스패리티를 계산하는 제1 콘볼루션 신경망(2) 및 제1 콘볼루션 신경망(2)에 의해 계산된 장면 디스패리티, 라이트 필드의 입력 뷰(IV) 및 장면 라이트 필드 뷰 어레이에서의 중간 뷰의 좌표에 기초하여 중간 뷰를 합성하는 제2 콘볼루션 신경망(3)을 포함할 수 있다.
제1 계산 모듈(1)은 입력 뷰(IV)에 기초하여 라이트 필드 장면 피쳐 어레이를 계산할 수 있다. 피쳐 어레이는 피쳐맵으로 지칭될 수 있다. 이 피쳐들은 신경망에 가공되지 않은 디스패리티의 기초 정보로서 즉각적으로 제공될 수 있다. 입력 뷰 중 하나는 하나의 픽셀만큼 21번 시프트될 수 있다. 이와 같은 시프트는 2, 4 또는 5의 개수를 가지는 모든 입력 뷰 구성에 대해서 이루어질 수 있다. 이후에, 시프트된 입력 뷰로부터 평균과 분산이 계산되어 얻어질 수 있다. 평균화된 뷰는 뷰들의 픽셀 값을 더한 후에 이를 뷰들의 개수로 나눔으로써 구할 수 있다. 분산은 평균으로부터 계산될 수 있다. 예를 들어, 평균화된 뷰는 다음과 같이 계산될 수 있다. 우선, 각각 (200, 200, 20) 및 (200, 0, 50)의 컬러 값을 가지는 두 개의 픽셀이 하나의 뷰 안에 있고, 다른 뷰에 컬러 값을 갖는 두 개의 픽셀이 있다고 가정할 수 있다. (400, 250, 20) 및 (220, 100, 250)의 컬러 값을 생성하기 위해, 이들을 더할 수 있다. 평균화된 뷰를 생성하기 위해, 모든 픽셀 값을 이용된 뷰의 수인 2로 나눌 수 있고 이에 따라, (200, 125, 10) 및 (110, 50, 125)의 값의 픽셀들을 가지는 평균화된 뷰를 가질 수 있다.
피쳐맵은 다음과 같은 방식으로 계산될 수 있다. 우선, 픽셀의 좌표 (x, y)를 포함하는 벡터 s 및 라이트 필드 뷰 매트릭스에서 중간 뷰의 위치를 가리키며, 2차원 공간에서의 좌표 (u, v)를 포함하는 벡터 q를 정의할 수 있다. 또한, i 번째 입력 뷰의 위치를 가리키는 벡터 pi를 정의할 수 있다. pi는 2차원 공간에서의 좌표 (u, v)를 포함할 수 있다. 다시 말해, q와 pi는 같은 공간 상의 벡터일 수 있다. 그리고 나서, 벡터 s의 새로운 뷰의 픽셀에 대한 디스패리티 맵(Dq(s))이 무엇인지 알게 되면(디스패리티 맵(Dq(s))은 신경망에 의해서 계산됨), 위치 s 에 위치한 픽셀의 컬러 값은 다음과 같은 식 (1)에 따라 정의될 수 있다.
... 식 (1)
피쳐맵을 생성하기 위해, 디스패리티 레벨 세트가 특정될 수 있다. 예를 들어, 디스패리티 레벨은 dl=l-22(l=1, ... , 43) 와 같을 수 있다.
새로운 뷰는 각각의 라이트 필드 뷰를 이용하여 각각의 디스패리티 레벨에 대해 다음의 식 (2)를 통해 계산될 수 있다.
... 식 (2)
는 특정 디스패리티 dl 에서의 N개의 입력 뷰 pi 로부터 얻어진 좌표 s = (x, y) 위치의 픽셀에 대한 컬러 값을 의미한다
그 다음, 두 개의 피쳐맵이 각각의 디스패리티 레벨에 대해 계산될 수 있다. 각각의 생성된 뷰들 사이에서의 한 픽셀의 평균 값은 아래의 식 (3)에 의해 계산될 수 있다. 픽셀 값은 픽셀의 컬러 및 밝기에 의해 정의될 수 있다. 픽셀 값 L은 넘버 트리플렛 Lc를 의미하며, c는 1, 2, 3의 값을 가진다. 예를 들어, L1은 빨간색, L2는 초록색, L3는 파란색을 의미할 수 있다. Lc는 0 내지 2N 범위의 값을 가질 수 있으며, N은 보통 8을 나타낸다. 나아가, 분산은 이 평균으로부터 구해질 수 있다. 한편, 특정 디스패리티에 대해 생성된 새로운 뷰들의 개수는 입력 뷰들의 개수와 같을 수 있다.
... 식 (3)
은 식 (2)에 따라 시프팅한 평균 입력 이미지들에 의해 생성된 이미지이다. 그러므로, 은 N번 시프트된 이미지로부터 얻어진 픽셀들의 평균 값을 의미한다. 상기 픽셀은 특정된 디스패리티 레벨 dl에서 벡터 s에 위치하고, N개의 입력 뷰로부터 계산된다.
N개의 입력뷰로부터 계산되며, 특정된 디스패리티 레벨 dl에서 벡터 s에 위치하는 픽셀에 대한 컬러 값의 표준 편차 는 다음과 같은 식 (4)에 의해 계산될 수 있다.
... 식 (4)
또한, 픽셀들의 평균값 및 픽셀들의 컬러 값의 표준 편차 를 통해 와 같은 구조의 2L 깊이를 가지는 피쳐맵이 형성될 수 있다. 즉, 식 (3)에 의해 평균화된 이미지를 포함하는 입력 뷰의 해상도(resolution) 및 각각의 디스패리티 레벨([d1, dL], L=21)에 대한 표준 편차와 일치하는 크기를 가지는 매트릭스가 생성될 수 있다. 디스패리티 레벨의 개수는 실험적으로 정해질 수 있다. 사실상, 0레벨도 포함시켜야 하므로, 피쳐맵은 2L+1 의 깊이를 가질 수 있다.
디스페리티 레벨(L)은 각각의 화소에 의한 양 또는 음의 방향으로 21개의 뷰 시프트와 입력 레벨(즉, 시프트되지 않은 뷰)에 대응하는 하나의 레벨을 더한 값에 대응되며, 두 개의 피쳐가 있으므로, 43개(2
Figure 112019083726404-pat00016
21+1)의 디스패리티 레벨(L)이 장면 디스패리티를 추정하는 신경망의 입력으로서 공급될 수 있다. 두 개의 피쳐는 식 (3)에 의한 평균화된 이미지와 식 (4)에 의한 표준 편차를 의미할 수 있다.
즉, 픽셀 내에서 W
Figure 112019083726404-pat00017
H
Figure 112019083726404-pat00018
2L의 크기를 가지는 텐서의 피쳐맵은 신경망의 입력으로써 공급될 수 있다. W 및 H는 각각 뷰의 폭 및 높이를 의미한다.
피쳐맵은 입력 뷰가 원하는 뷰로 전환되는 과정에서의 입력 뷰의 행동을 묘사하는 매트릭스(3차원 텐서를 포함하는 매트릭스) 세트를 의미한다. 그러므로, 신경망은 자동 조정(self-adjusting)의 특징을 포함하고, 생략 가능한(omissible) 사항을 필터링하여 필수적인 것을 식별해내기 위해 추상적인 피쳐의 체계(피쳐맵의 시퀀스)를 만들어낼 수 있다.
본 개시의 다른 실시예에 따른 중간 뷰를 합성하는 시스템(3000)은 원하는 라이트 필드의 중간 뷰를 합성할 수 있다. 시스템(3000)에 포함된 제1 및 제2 콘볼루션 신경망(2, 3)은 함께 훈련될 수 있다.
제1 콘볼루션 신경망(2)은 디스패리티를 계산한다. 제2 콘볼루션 신경망(3)은 원하는 중간 뷰를 직접 합성해낸다. 라이트 필드의 입력 뷰의 세트로부터 스택 가능한(stackable) 3차원 텐서는 제1 콘볼루션 신경망(2)으로부터 받은 디스패리티 맵을 고려하여 위의 식 (2)에 의해 변환될 수 있다. 3차원 텐서는 디스패리티 맵 자체와 두 개의 매트릭스를 포함할 수 있다. 상기 두 개의 매트릭스 중 하나의 매트릭스의 모든 요소는 원하는 뷰의 x축(u로 표시됨) 상의 좌표와 일치하고, 다른 하나의 매트릭스의 모든 요소는 원하는 뷰의 y축(v로 표시됨) 상의 좌표와 일치할 수 있다.
도 14는 다른 일 실시예에 따른 신경망을 이용하여 라이트 필드의 중간 뷰를 합성하는 시스템(4000)을 간략하게 도시한 것이다. 시스템(4000)은 피쳐맵을 사용하지 않고 중간 뷰를 합성할 수 있다. 도 14에 도시된 신경망 시스템(4000)은 도 4 내지 10에 도시된 입력 뷰의 구성 C1 내지 C7을 이용할 수 있다.
시스템(4000)의 본질은 입력 뷰(IV) 및 원하는 뷰의 좌표(u, v)를 신경망의 입력으로 공급하고 필요한 중간 뷰를 출력하는 것이다. 이 경우, 신경망이 아니라 뎁쓰 센서(미도시)를 이용하여 디스패리티를 추정할 수 있다. 뎁쓰 센서(미도시)는 도 14에 도시되어 있지는 않지만, 깊이 맵을 제공하는 추가적인 장치로서 제공될 수 있다. 이러한 뎁쓰 센서에 관한 기술은 종래에 잘 알려진 기술이다(cf., https://ru.wikipedia.org/wiki/Kinect). 시스템(4000)은, 뎁쓰 센서를 이용하여 장면 라이트 필드의 입력 뷰(IV)에 대하여 생성한 장면 디스패리티 맵 및 장면 라이트 필드 뷰 어레이에서의 중간 뷰의 좌표(u, v)에 기초하여 중간 뷰를 합성하는 콘볼루션 신경망(4)을 포함할 수 있다.
그러므로, 시스템(4000)의 경우에는, 도 13의 시스템(3000)과 달리, 피쳐맵을 계산할 필요가 없으며, 장면 디스패리티를 계산하기 위해 신경망을 사용할 필요가 없다. 다만, 시스템(4000)의 구조는 도 13의 시스템(3000)의 구조와 유사할 수 있다. 구체적으로는, 선택된 입력 뷰(IV)는 뎁쓰 센서로부터 받은 디스패리티 맵을 참조하여 식 (2)에 의해 변환될 수 있다. 또한, 변환된 입력 뷰는 원하는 뷰를 합성하는 콘볼루션 신경망(4)에 공급될 수 있다. 나아가, 변환된 입력 뷰는 뎁쓰 센서로부터의 디스패리티 맵 자체와 두 개의 매트릭스를 포함할 수 있다. 상기 두 개의 매트릭스 중 하나의 매트릭스의 모든 요소는 원하는 뷰의 x축(u로 표시됨) 상의 좌표와 일치하고, 다른 하나의 매트릭스의 모든 요소는 원하는 뷰의 y축(v로 표시됨) 상의 좌표와 일치할 수 있다.
도 15는 다른 일 실시예에 따른 신경망을 이용하여 라이트 필드의 중간 뷰를 합성하는 시스템(5000)을 간략하게 도시한 것이다. 도 15에 도시된 시스템은 장면 디스패리티 맵을 이용하지 않고 중간 뷰를 생성할 수 있다.
시스템(5000)은 장면 라이트 필드의 입력 뷰(IV)와 장면 라이트 필드 뷰 어레이에서의 중간 뷰의 좌표 (u, v)에 기초하여 장면 라이트 필드의 중간 뷰를 합성하는 제1 신경망(5) 및 디지털 이미지의 물체를 분류할 수 있도록 미리 훈련된 제2 신경망(6)을 포함할 수 있다.
제1 신경망(5)은 콘볼루션 신경망일 수 있다. 제1 신경망(5)은 디스패리티 맵 없이도 중간 뷰를 합성할 수 있도록 미리 훈련될 수 있다.
제2 신경망(6)은 VGG-16(기존에 잘 알려진 신경망의 한 종류) 또는 다른 분류 신경망(classifying network)들 중 어느 하나일 수 있다. 신경망 VGG-16은 1000개의 물체 중 하나를 식별해낼 수 있다(참고: https://www.quora.com/What-is-the-VGG-neural-network). 또한, VGG-16은 제1 신경망(1)을 훈련시키는 데에 사용될 수 있다.
도 15를 참조하면, 제1 신경망(5)을 훈련시키기 위해, 라이트 필드의 입력 뷰(IV) 및 원하는 중간 뷰의 좌표 (u, v)가 제1 신경망(5)의 입력 값으로 공급할 수 있다(제1 단계). 그 다음으로, 제1 신경망(5)에 의해 합성된 중간 뷰가 제2 신경망(6)으로 전달될 수 있다. 이와 동시에, 제1 신경망(5)에 의해 합성된 원하는 중간 뷰와 동일한 좌표를 가지는 참조 뷰(RV)가 제2 신경망(2)으로 전달될 수 있다. 참조 뷰(RV)는 합성된 것이 아니라, 미리 생성된 것으로, 트레이닝 데이터 세트에 처음부터 존재하는 오리지널 뷰이다. 예를 들어, 참조 뷰(RV)는 플렌옵틱 카메라에 의해서 생성될 수 있다.
제2 신경망(6)은 제1 신경망(5)에 의해 합성된 원하는 중간 뷰 및 참조 뷰(RV)를 인간의 인지 관점에서보다 더 효과적으로 오차를 계산할 수 있도록 하는 뷰 피쳐들의 공간으로 전송한다. 두 개의 뷰 피쳐 맵이 제2 신경망(6)의 출력에서 생성될 수 있다. 상기 두 개의 뷰 피쳐 맵 각각은 제2 신경망(6)의 하나 또는 그 이상의 레이어로부터의 출력을 의미한다. 또한, 상기 뷰 피쳐 맵은 오차 함수(error function)를 계산하기 위해 사용될 수 있다. 제2 신경망(6)은 원하는 중간 뷰 및 참조 뷰(RV)와 동일한 차원을 가지는 뷰 피쳐 맵들을 출력할 수 있다. 상기 뷰 피쳐 맵들은 오차를 계산하기 위한 기초가 될 수 있다. 이를 위하여, 잘 알려진 기술인 '지각 상실(perceptual loss)'이 이용될 수 있다. 지각 상실은 비특허문헌("Perceptual Losses for Real-Time Style Transfer and Super-Resolution≫, Justin Johnson, Alexandre Alahi, Li Fei-Fei, 2016, https://arxiv.org/pdf/1603.08155.pdf)에 개시되어 있다.
도 15에 도시된 시스템(5000)의 본질은 이미지들을 분류하기 위해, 제1 신경망(5)에 의해 합성된 중간 뷰와 별도의 참조 뷰(RV)가 제2 신경망(6)의 일련의 레이어들을 통과한다는 점이다. 생성된 두 개의 뷰 피쳐 맵은 Frobenius norm L2(https://en.wikipedia.org/wiki/Matrix_norm#Frobenius_norm)에서 비교될 수 있다.
시스템(5000)에 의한 결과는 제1 신경망(5)에 의해 합성된 뷰의 피쳐 맵과 참조 뷰(RV) 사이의 '거리(distance)'로 정의되는 값일 수 있다. 상기 '거리' 값이 클수록, 시스템(5000)의 동작이 불안정해질 수 있다. 다시 말해, 시스템(5000)에 의해 생성된 값은 제1 신경망(5)에 의해 합성된 원하는 중간 뷰에서의 계산 오차을 의미한다.
도 13의 시스템(3000)의 방식과 유사하게 제1 신경망(5)으로 하여금 상기 픽셀 차분에 있어서 참조 뷰와 최대한 가까워지도록 뷰를 합성하게 하는 것 대신에, 도 15의 시스템(5000)의 제1 신경망(5)은 오차 값(error value)을 최소화시킬 수 있도록 오차 값이 생성된 이후에 훈련될 수 있다. 제1 신경망(5)이 훈련되는 원리는 잘 알려져 있는 바, 이에 대한 설명은 생략한다. 제1 신경망(5)이 훈련됨과 동시에, 참조 뷰(RV)와 비교했을 때, 제1 신경망(5)에 의해 합성된 중간 뷰의 원하는 파라미터가 얻어질 때까지 상기 제1 단계가 반복될 수 있다.
제2 단계에서는, 제1 신경망(5)은 훈련 및 원하는 합성 파라미터의 획득 이후에, 최소화된 오차를 가지는 원하는 중간 뷰를 합성할 준비가 되어 있다.
본 개시의 다양한 실시예에 따른 라이트 필드의 중간 뷰 합성 방법은 적어도 하나의 카메라를 가지는 모바일 장치에 적용될 수 있다.
사용자는 카메라의 위치를 바꾸지 않으면서, 빠르게 일련의 사진들을 만들 수 있다. 예를 들어, 사용자의 손의 움직임으로 인한 카메라의 작은 이동은 라이트 필드의 필요한 수의 입력 뷰를 형성하기에 충분할 수 있다. 모든 사진들이 찍힌다면, 더 좋은 품질을 얻을 수 있으나, 미리 선택된 뷰의 구성에 의해 정해진 수의 사진을 취하는 것이 바람직하다. 생성된 입력 뷰들은 처리 모듈(processing module) 즉, 상기 모바일 장치의 중간 뷰 합성을 담당하는 부분으로 전송될 수 있다. 선택적으로, 뎁쓰 센서로부터의 디스패리티 맵을 수신하는 서브 모듈이 이 처리 모듈에 포함될 수 있다. 나아가, 모바일 장치는 라이트 필드의 중간 뷰를 생성하는 단계, 메모리 장치에 생성된 라이트 필드의 중간 뷰를 전송하는 단계 및 생성된 라이트 필드의 중간 뷰를 모바일 장치의 디스플레이로 출력하는 단계에 따라 동작될 수 있다.
현대의 모바일 장치의 카메라는 해상도가 높기 때문에, 이러한 모바일 장치에 의해 생성된 라이트 필드의 각각의 뷰는 고해상도를 가질 수 있다. 이러한 효과가 플렌옵틱 카메라의 전형적인 문제점인 각 해상도와 공간 해상도 사이의 트레이드 오프 문제를 해결할 수 있다.
상술한 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법은 이해를 돕기 위하여 도면에 도시된 실시예를 참고로 설명하였으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 실시예의 도출이 가능하다는 점을 이해할 것이다. 따라서 본 개시에 따른 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.
10: 실제 장면
20: 카메라 어레이
30: 뷰 어레이
40: 하나의 뷰
50: 입력뷰의 임의의 구성
60: 중간 뷰의 어레이
C1, C2, C3, C4, C5, C6, C7: 입력 뷰의 구성
1000: 라이트 필드 압축 알고리즘
2000: 라이트 필드 재구성 알고리즘
3000, 4000, 5000: 라이트 필드의 중간 뷰를 합성하는 시스템

Claims (12)

  1. 라이트 필드 획득 장치에 의해 수집된 라이트 필드의 입력 뷰의 특정 구성을 이용하여 중간 뷰를 합성하는 라이트 필드의 중간 뷰 합성 방법에 있어서,
    상기 수집된 라이트 필드의 특정 입력 뷰의 구성을 선택하는 단계;
    상기 합성하고자 하는 중간 뷰의 좌표를 특정하여 신경망에 입력하는 단계;
    상기 신경망을 이용하여 장면 디스패리티, 상기 특정 입력 뷰의 선택된 구성 및 상기 특정된 중간 뷰의 좌표에 기초하여 중간 뷰를 합성하는 단계;
    적어도 하나의 중간 뷰와 입력 뷰 사이의 차분 계산하는 단계; 및
    상기 차분을 이용하여 상기 중간 뷰를 재구성하는 단계; 를 포함하며,
    상기 특정 입력 뷰의 구성은 상기 획득 장치에 의해 수집된 라이트 필드 매트릭스에서의 입력 뷰의 좌표에 의해 정의되는, 라이트 필드의 중간 뷰 합성 방법.
  2. 제1 항에 있어서,
    상기 라이트 필드 매트릭스의 크기는 M M(M은 양수)이고,
    상기 입력 뷰의 좌표는 상기 M M크기의 매트릭스의 첫 번째 및 마지막 번째 행에 포함된 지점과 첫 번째 및 마지막 번째 열에 포함된 지점에 대응되는 좌표인, 라이트 필드의 중간 뷰 합성 방법.
  3. 제2 항에 있어서,
    상기 M이 홀수인 경우에는, 상기 지점은 상기 행 또는 열에서 중간 지점을 의미하고,
    상기 M이 짝수인 경우에는, 상기 지점은 상기 행 또는 열에서 중간 지점에 가장 가까운 지점을 의미하는, 라이트 필드의 중간 뷰 합성 방법.
  4. 제1 항에 있어서,
    상기 중간 뷰의 좌표는 정수 또는 분수로 표현되는, 라이트 필드의 중간 뷰 합성 방법.
  5. 제1 항에 있어서,
    상기 라이트 필드의 특정 입력 뷰의 선택된 구성에 기초하여 라이트 필드 피처맵을 계산하는 단계; 및
    상기 라이트 필드 피처맵을 기초로, 상기 신경망을 이용하여 상기 장면 디스패리티를 계산하는 단계; 를 더 포함하는 라이트 필드의 중간 뷰 합성 방법
  6. 제1 항에 있어서,
    뎁스 센서를 이용하여 상기 장면 디스패리티를 미리 추정하는 단계; 를 더 포함하는 라이트 필드의 중간 뷰 합성 방법.
  7. 제5 항에 있어서,
    미리 훈련된 신경망을 이용하여 상기 중간 뷰를 합성하는 단계; 를 더 포함하는 라이트 필드의 중간 뷰 합성 방법.
  8. 라이트 필드 장면의 입력 뷰를 캡쳐하는 라이트 필드 뷰 캡쳐 장치;
    상기 라이트 필드 장면의 입력 뷰, 장면 디스패리티 및 장면 라이트 필드 뷰 어레이에서의 중간 뷰의 특정 좌표에 기초하여 중간 뷰를 합성하는 제1 콘볼루션 신경망 모듈;
    상기 라이트 필드 장면의 입력 뷰에 기초하여 라이트 필드 장면 피쳐맵을 계산하는 제1 계산 모듈;
    상기 피쳐맵에 기초하여 상기 장면 디스패리티를 계산하는 제2 콘볼루션 신경망 모듈;
    적어도 하나의 디스패리티 레벨을 포함하는 디스패리티 레벨 세트를 설정하는 디스패리티 레벨 세팅 모듈;
    각 디스패리티 레벨에 대응하는 각각의 상기 입력 뷰를 이용하여 상기 디스패리티 레벨 각각에 대한 새로운 뷰를 계산하는 제2 계산 모듈; 및
    각각의 생성된 뷰로부터의 상기 디스패리티 레벨에 대한 상기 픽셀의 컬러 및 밝기의 평균값의 두 가지 특징을 나타내는 피쳐맵을 계산하는, 제3 계산 모듈; 을 포함하는, 라이트 필드의 중간 뷰 합성 시스템.
  9. 제8 항에 있어서,
    상기 디스패리티 레벨 세트는 {d1, ..., dL}로 나타내고,
    상기 제2 계산 모듈은 하기 식을 통해, 각각의 상기 입력 뷰를 이용하여 상기 디스패리티 레벨 각각에 대한 새로운 뷰를 계산하도록 구성된,
    (는 특정 디스패리티 레벨 dl 에서의 N개의 입력 뷰 pi 로부터 얻어진 좌표 s = (x, y) 위치의 픽셀에 대한 컬러 값을 의미함)
    라이트 필드의 중간 뷰 합성 시스템.
  10. 제8 항에 있어서,
    상기 디스패리티의 예비 추정에 사용되는 깊이 값을 제공하는 뎁쓰 센서를 더 포함하는, 라이트 필드의 중간 뷰 합성 시스템.
  11. 상기 제1 내지 7항 중 어느 하나의 라이트 필드의 중간 뷰 합성 방법을 수행하는 라이트 필드의 중간 뷰 합성 시스템을 포함하는 모바일 장치.
  12. 라이트 필드 획득 장치에 의해 수집된 라이트 필드의 특정 입력 뷰의 구성을 선택하는 단계;
    상기 제1 내지 제7 항 중 어느 하나의 라이트 필드의 중간 뷰 합성 방법을 이용하여 라이트 필드의 중간 뷰를 합성하는 단계; 및
    상기 차분를 압축하는 단계; 를 포함하는, 라이트 필드 압축 방법.
KR1020190099834A 2018-08-21 2019-08-14 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법 KR102658359B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/270,276 US11533464B2 (en) 2018-08-21 2019-08-20 Method for synthesizing intermediate view of light field, system for synthesizing intermediate view of light field, and method for compressing light field
PCT/KR2019/010564 WO2020040521A1 (ko) 2018-08-21 2019-08-20 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2018130343A RU2690757C1 (ru) 2018-08-21 2018-08-21 Система синтеза промежуточных видов светового поля и способ ее функционирования
RU2018130343 2018-08-21

Publications (2)

Publication Number Publication Date
KR20200021891A KR20200021891A (ko) 2020-03-02
KR102658359B1 true KR102658359B1 (ko) 2024-04-17

Family

ID=67037414

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190099834A KR102658359B1 (ko) 2018-08-21 2019-08-14 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법

Country Status (3)

Country Link
US (1) US11533464B2 (ko)
KR (1) KR102658359B1 (ko)
RU (1) RU2690757C1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541972B (zh) * 2019-09-23 2024-05-14 华为技术有限公司 一种视点图像处理方法及相关设备
KR102380563B1 (ko) * 2020-06-02 2022-03-31 인하대학교 산학협력단 단안 비디오로부터의 5차원 라이트필드 비디오 합성 방법 및 장치
WO2022010026A1 (ko) 2020-07-07 2022-01-13 인하대학교 산학협력단 적층 가능한 라이트필드 기반 가상공간 구축 방법 및 장치
KR20220023229A (ko) * 2020-08-20 2022-03-02 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN112365400B (zh) * 2020-10-27 2024-05-28 深圳大学 一种快速光场角度超分辨重建方法
TWI787800B (zh) * 2021-04-29 2022-12-21 國立臺灣大學 光場合成方法及系統

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100517517B1 (ko) * 2004-02-20 2005-09-28 삼성전자주식회사 중간 시점 영상 합성 방법 및 그를 적용한 3d 디스플레이장치
KR100636785B1 (ko) * 2005-05-31 2006-10-20 삼성전자주식회사 다시점 입체 영상 시스템 및 이에 적용되는 압축 및 복원방법
US20160255333A1 (en) * 2012-09-28 2016-09-01 Pelican Imaging Corporation Generating Images from Light Fields Utilizing Virtual Viewpoints

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613048A (en) 1993-08-03 1997-03-18 Apple Computer, Inc. Three-dimensional image synthesis using view interpolation
US7466336B2 (en) 2002-09-05 2008-12-16 Eastman Kodak Company Camera and method for composing multi-perspective images
DE102005063503B4 (de) 2005-03-10 2011-05-19 Inaba, Minoru, Oyama 3D-Display und 3D-Projektor
RU2411690C2 (ru) * 2005-12-02 2011-02-10 Конинклейке Филипс Электроникс Н.В. Способ и устройство отображения стереоскопического изображения, способ для создания данных 3d изображения из входных данных 2d изображения и устройство для создания данных 3d изображения из входных данных 2d изображения
CN101416520B (zh) * 2006-03-31 2011-12-14 皇家飞利浦电子股份有限公司 多视图的高效编码
US7609906B2 (en) 2006-04-04 2009-10-27 Mitsubishi Electric Research Laboratories, Inc. Method and system for acquiring and displaying 3D light fields
KR100801968B1 (ko) * 2007-02-06 2008-02-12 광주과학기술원 변위를 측정하는 방법, 중간화면 합성방법과 이를 이용한다시점 비디오 인코딩 방법, 디코딩 방법, 및 인코더와디코더
KR101733443B1 (ko) * 2008-05-20 2017-05-10 펠리칸 이매징 코포레이션 이종 이미저를 구비한 모놀리식 카메라 어레이를 이용한 이미지의 캡처링 및 처리
CN102239506B (zh) * 2008-10-02 2014-07-09 弗兰霍菲尔运输应用研究公司 中间视合成和多视点数据信号的提取
HU0900478D0 (en) 2009-07-31 2009-09-28 Holografika Hologrameloeallito Method and apparatus for displaying 3d images
AU2011323162A1 (en) 2010-11-07 2013-05-30 Council For Scientific And Industrial Research On-chip 4d lightfield microscope
WO2012068137A1 (en) 2010-11-15 2012-05-24 Medivision, Inc. Stereoscopic relay optics
US9412206B2 (en) * 2012-02-21 2016-08-09 Pelican Imaging Corporation Systems and methods for the manipulation of captured light field image data
US8995719B2 (en) * 2012-12-10 2015-03-31 Intel Corporation Techniques for improved image disparity estimation
US9462164B2 (en) * 2013-02-21 2016-10-04 Pelican Imaging Corporation Systems and methods for generating compressed light field representation data using captured light fields, array geometry, and parallax information
EP2879091A1 (en) 2013-11-29 2015-06-03 Thomson Licensing Method and device for estimating disparity associated with views of a scene acquired with a plenoptic camera
EP2887642A3 (en) 2013-12-23 2015-07-01 Nokia Corporation Method, apparatus and computer program product for image refocusing for light-field images
US10244223B2 (en) 2014-01-10 2019-03-26 Ostendo Technologies, Inc. Methods for full parallax compressed light field 3D imaging systems
RU164158U1 (ru) * 2014-10-07 2016-08-20 Акционерное общество "ЭЛВИС-НеоТек" Устройство вычисления карты диспаратности для стереоизображения
US9503708B2 (en) 2014-11-03 2016-11-22 Aquifi, Inc. Systems and methods for reducing z-thickness and zero-order effects in depth cameras
KR102288280B1 (ko) * 2014-11-05 2021-08-10 삼성전자주식회사 영상 학습 모델을 이용한 영상 생성 방법 및 장치
US20160182891A1 (en) 2014-12-22 2016-06-23 Google Inc. Integrated Camera System Having Two Dimensional Image Capture and Three Dimensional Time-of-Flight Capture With A Partitioned Field of View
US10247941B2 (en) 2015-01-19 2019-04-02 Magna Electronics Inc. Vehicle vision system with light field monitor
US9596393B2 (en) 2015-01-27 2017-03-14 Moment Inc Smart case for mobile photography
EP3065394A1 (en) 2015-03-05 2016-09-07 Thomson Licensing Light field metadata
EP3286737A1 (en) 2015-04-23 2018-02-28 Ostendo Technologies, Inc. Methods for full parallax compressed light field synthesis utilizing depth information
KR101723738B1 (ko) 2015-08-21 2017-04-18 인하대학교 산학협력단 딕셔너리 학습 기반 해상도 향상 장치 및 방법
US10257417B2 (en) * 2016-05-24 2019-04-09 Microsoft Technology Licensing, Llc Method and apparatus for generating panoramic images
US10924638B2 (en) 2016-06-27 2021-02-16 Intel Corporation Compact, low cost VCSEL projector for high performance stereodepth camera
EP3264755A1 (en) 2016-06-30 2018-01-03 Thomson Licensing Plenoptic sub aperture view shuffling for a richer color sampling
US10706890B2 (en) * 2017-08-24 2020-07-07 Intel Corporation Cinematic space-time view synthesis for enhanced viewing experiences in computing environments
US11687778B2 (en) * 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100517517B1 (ko) * 2004-02-20 2005-09-28 삼성전자주식회사 중간 시점 영상 합성 방법 및 그를 적용한 3d 디스플레이장치
KR100636785B1 (ko) * 2005-05-31 2006-10-20 삼성전자주식회사 다시점 입체 영상 시스템 및 이에 적용되는 압축 및 복원방법
US20160255333A1 (en) * 2012-09-28 2016-09-01 Pelican Imaging Corporation Generating Images from Light Fields Utilizing Virtual Viewpoints

Also Published As

Publication number Publication date
KR20200021891A (ko) 2020-03-02
RU2690757C1 (ru) 2019-06-05
US11533464B2 (en) 2022-12-20
US20210314545A1 (en) 2021-10-07

Similar Documents

Publication Publication Date Title
KR102658359B1 (ko) 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법
US20220014723A1 (en) Enhancing performance capture with real-time neural rendering
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
Boominathan et al. Improving resolution and depth-of-field of light field cameras using a hybrid imaging system
JP6094863B2 (ja) 画像処理装置、画像処理方法、プログラム、集積回路
US9749601B2 (en) Imaging device, image display method, and storage medium for displaying reconstruction image
US9412151B2 (en) Image processing apparatus and image processing method
US10652577B2 (en) Method and apparatus for encoding and decoding light field based image, and corresponding computer program product
US20220394226A1 (en) Free viewpoint video generation and interaction method based on deep convolutional neural network
TW201622403A (zh) 數位重對焦方法
JP2014056466A (ja) 画像処理装置及び方法
US20240087214A1 (en) Color and infra-red three-dimensional reconstruction using implicit radiance functions
CN113538243B (zh) 基于多视差注意力模块组合的超分辨图像重建方法
WO2020040521A1 (ko) 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법
Chandramouli et al. A generative model for generic light field reconstruction
CN104796624A (zh) 一种光场编辑传播方法
KR20120093751A (ko) 정면시점 영상합성을 통한 시선 맞춤 장치 및 방법
WO2014077024A1 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN109934863B (zh) 一种基于密集连接型卷积神经网络的光场深度信息估计方法
Perra et al. An analysis of HEVC compression for light field image refocusing applications
Kovacs et al. 3D capturing using multi-camera rigs, real-time depth estimation and depth-based content creation for multi-view and light-field auto-stereoscopic displays
Wang et al. Learning-based high-efficiency compression framework for light field videos
CN113971629A (zh) 图像恢复方法和装置
Cheng et al. H 2-Stereo: High-Speed, High-Resolution Stereoscopic Video System
Isogai et al. A panoramic video rendering system using a probability mapping method

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right