KR102141319B1 - 다시점 360도 영상의 초해상화 방법 및 영상처리장치 - Google Patents

다시점 360도 영상의 초해상화 방법 및 영상처리장치 Download PDF

Info

Publication number
KR102141319B1
KR102141319B1 KR1020190162738A KR20190162738A KR102141319B1 KR 102141319 B1 KR102141319 B1 KR 102141319B1 KR 1020190162738 A KR1020190162738 A KR 1020190162738A KR 20190162738 A KR20190162738 A KR 20190162738A KR 102141319 B1 KR102141319 B1 KR 102141319B1
Authority
KR
South Korea
Prior art keywords
image
resolution
feature map
super
degree
Prior art date
Application number
KR1020190162738A
Other languages
English (en)
Inventor
강제원
김희재
이병욱
Original Assignee
이화여자대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이화여자대학교 산학협력단 filed Critical 이화여자대학교 산학협력단
Priority to KR1020190162738A priority Critical patent/KR102141319B1/ko
Application granted granted Critical
Publication of KR102141319B1 publication Critical patent/KR102141319B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0102Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving the resampling of the incoming video signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

다시점 360도 영상의 초해상화 방법은 영상처리장치가 다시점을 제공하는 복수의 360도 영상 중 저해상도인 타깃 영상 및 고해상도인 레퍼런스 영상을 입력받는 단계, 상기 영상처리장치가 상기 타깃 영상의 시점을 기준으로 깊이 기반으로 상기 레퍼런스 영상을 변환하는 단계, 상기 영상처리장치가 신경망 모델을 이용하여 상기 변환된 레퍼런스 영상 및 업 샘플링된 타깃 영상을 기준으로 플로우(flow)를 추정하는 단계, 상기 영상처리장치가 신경망 모델을 이용하여 상기 변환된 레퍼런스 영상의 제1 특징 맵을 생성하면서, 상기 플로우를 반영하여 개량된 제1 특징 맵을 생성하는 단계, 상기 영상처리장치가 신경망 모델을 이용하여 상기 업 샘플링된 타깃 영상의 제2 특징 맵을 생성하는 단계 및 상기 영상처리장치가 신경망 모델을 이용하여 상기 개량된 제1 특징 맵 및 상기 제2 특징 맵을 기준으로 상기 타깃 영상에 대한 초해상화를 수행하는 단계를 포함한다.

Description

다시점 360도 영상의 초해상화 방법 및 영상처리장치{SUPER-RESOLUTION METHOD FOR MULTI-VIEW 360-DEGREE IMAGE AND IMAGE PROCESSING APPARATUS}
이하 설명하는 기술은 다시점 360도 영상에 대한 초해상화 기법에 관한 것이다.
멀티미디어 기술의 발달로 최근 실감 미디어에 대한 관심이 높아지고 있다. 360도 영상(360-degree image)은 특정 시점을 기준으로 실제 물리 환경과 같은 전방위 영상을 제공한다. 360도 영상은 주로 VR(virtual reality) 콘텐츠로 사용된다. 한편, 다시점 영상은 시점이 다른 복수의 카메라로 획득한 영상을 말한다. 다시점 360도 영상은 360도 영상을 캡쳐하는 복수의 카메라로 획득한 영상을 말한다. 다시점 360도 영상은 서로 다른 위치에서 사용자에게 더욱 몰입감 있는 경험을 제공한다.
LongguangWang, YingqianWang, Zhengfa Liang, Zaiping Lin, Jungang Yang, Wei An, and Yulan Guo, "Learning parallax attention for stereo image super-resolution,"in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 12250-12259.
다시점 360도 영상은 넓은 공간 정보를 담기에 일반적으로 고해상도 영상이다. 즉, 다시점 360도 영상은 데이터 용량이 큰 콘텐츠이다. 네트워크를 이용한 콘텐츠 전송하는 경우 또는 VR장치와 같이 한정된 저장 공간을 갖는 장치인 경우, 최대한 작은 용량의 데이터가 유리하다. 따라서, 이와 같은 환경에서 다시점 360도 영상 중 일부를 저해상도 영상을 제공하고, 영상처리장치가 저해상도 영상에 대한 초해상화를 수행하는 방식이 사용될 수 있다.
이하 설명하는 기술은 다시점 360도 영상에 대한 초해상화 기법을 제공하고자 한다.
다시점 360도 영상의 초해상화 방법은 영상처리장치가 다시점을 제공하는 복수의 360도 영상 중 저해상도인 타깃 영상 및 고해상도인 레퍼런스 영상을 입력받는 단계, 상기 영상처리장치가 상기 타깃 영상의 시점을 기준으로 깊이 기반으로 상기 레퍼런스 영상을 변환하는 단계, 상기 영상처리장치가 신경망 모델을 이용하여 상기 변환된 레퍼런스 영상 및 업 샘플링된 타깃 영상을 기준으로 플로우(flow)를 추정하는 단계, 상기 영상처리장치가 신경망 모델을 이용하여 상기 변환된 레퍼런스 영상의 제1 특징 맵을 생성하면서, 상기 플로우를 반영하여 개량된 제1 특징 맵을 생성하는 단계, 상기 영상처리장치가 신경망 모델을 이용하여 상기 업 샘플링된 타깃 영상의 제2 특징 맵을 생성하는 단계 및 상기 영상처리장치가 신경망 모델을 이용하여 상기 개량된 제1 특징 맵 및 상기 제2 특징 맵을 기준으로 상기 타깃 영상에 대한 초해상화를 수행하는 단계를 포함한다.
다시점 360도 영상의 초해상화를 수행하는 영상처리장치는 복수의 360도 영상 중 저해상도인 타깃 영상 및 고해상도인 레퍼런스 영상을 입력받는 입력장치, 360도 영상에 대한 초해상화를 수행하는 신경망 모델을 저장하는 저장장치 및 상기 타깃 영상의 시점을 기준으로 깊이 기반으로 상기 레퍼런스 영상을 변환하고, 상기 변환된 레퍼런스 영상 및 업 샘플링된 타깃 영상을 상기 신경망 모델에 입력하여 상기 타깃 영상에 대한 초해상화를 수행하는 연산장치를 포함한다.
상기 신경망 모델은 상기 플로우를 추정하는 제1 인코더, 상기 개량된 제1 특징 맵 및 상기 제2 특징 맵을 생성하는 제2 인코더 및 상기 개량된 제1 특징 맵 및 상기 제2 특징 맵을 입력받아 상기 타깃 영상에 대한 고해상도 영상을 생성하는 디코더를 포함한다.
이하 설명하는 기술은 복수의 다시점 360도 영상 중 일부 저해상도 영상과 인접 영역의 고해상도 영상을 이용하여 저해상도 영상에 대한 효과적인 초해상화를 제공한다.
도 1은 360도 영상을 생성하는 과정에 대한 예이다.
도 2는 다시점 360도 영상을 제공하는 시스템에 대한 예이다.
도 3은 초해상화를 사용하는 다시점 360도 영상 시스템에 대한 예이다.
도 4는 다시점 360도 영상에 대한 초해상화 과정에 대한 예이다.
도 5는 인코더를 구성하는 계층에 대한 예이다.
도 6은 디코더를 구성하는 계층에 대한 예이다.
도 7은 초해상화를 수행하는 신경망 모델에 대한 예이다.
도 8은 초해상화를 수행하는 영상처리장치에 대한 예이다.
도 9는 제안한 초해상도 기법에 대한 성능 실험 결과이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
360도 영상은 하나의 지점을 기준으로 360도 시점의 영상을 제공하는 영상 데이터를 의미한다.
다시점 360도 영상은 복수의 지점(또는 일정한 영역)에서, 각 지점에서 360도 시점의 영상을 제공하는 영상 데이터를 의미한다. 다시점 360도 영상은 복수의 360도 카메라를 이용하여 획득한 복수의 360도 영상으로 구성된다.
저해상도 영상은 360도 카메라가 획득한 영상을 일정하게 다운 스케일링하여 해상도가 기준값 미만인 영상을 의미한다. 이하 저해상도 영상은 LR(low resolution) 영상이라고 표현한다. 고해상도 영상은 360도 카메라가 획득한 원본 영상 또는 일정한 기준값 이상인 영상을 의미한다. 이하 고해상도 영상은 HR(high resolution) 영상이라고 표현한다.
초해상화(super-resolution)는 낮은 해상도의 영상을 보다 고해상도의 영상으로 변환하는 기법을 말한다. 종래 초해상화는 픽셀 보간과 같은 기법을 이용하여 수행되었다. 이하 설명하는 기술은 전술한 바와 같이 다시점 360도 영상에 대한 초해상화 기법이다. 이하 다시점 360도 영상에 대한 초해상화 기법을 보다 단순하게 MV-SR(multi-view super-resolution)이라고 표현한다.
이하 설명하는 기술은 신경망 모델을 사용하여 초해상화를 한다. 신경망 모델은 RNN(Recurrent Neural Networks), FFNN(feedforward neural network), CNN(convolutional neural network) 등 다양한 모델이 있다. 이하 설명에서 CNN을 중심으로 설명하지만, 초해상화 기술이 특정 신경망 모델로만 구현되는 것은 아니다.
도 1은 360도 영상을 생성하는 예이다. 360도 영상을 생성하는 과정은 (a) 영상 획득, (b) 복수의 영상 결합(stitching) 및 (c) 결합된 영상의 맵핑으로 구성된다. 영상처리장치는 복수의 영상을 입력받아 360도 영상을 생성한다. 경우에 따라서는 인코더가 360도 영상을 생성하고, 영상을 인코딩할 수도 있다. 360도 영상 생성은 영상처리장치가 수행한다고 가정한다.
영상처리장치는 360도 카메라를 이용하여 복수의 영상을 획득한다(a 과정). 360도 카메라는 특정 지점을 기준으로 서로 다른 방향(시점)의 영상을 획득하는 장치이다. 360도 카메라는 기준 지점을 기준으로 서로 다른 방향을 향하는 복수의 카메라 유닛을 포함한다. 도 1에서는 구 형태의 360도 카메라를 도시하였으나 360도 카메라는 다양한 형태를 가질 수 있다.
영상처리장치는 360도 카메라가 획득한 복수의 영상을 일정한 기준으로 결합한다(b 과정). 결합 과정은 복수의 영상을 하나의 영상으로 결합하는 과정에 해당한다. 영상처리장치는 인접한 영상을 서로 이어서(stitching) 하나의 결합된 영상을 생성한다.
마지막으로 영상처리장치는 결합된 영상을 일정한 모델을 사용하여 맵핑을 수행한다(c 과정). 맵핑은 360도 방위 영상을 평면 영상으로 변환하는 과정에 해당한다. 도 1은 ERP(Equirectangular projection) 모델을 사용하여 맵핑한 예를 도시한다. ERP 모델은 360도 카메라를 기준으로 360도 구에 맵핑되는 영상을 2D로 투사하는 방식이다. 나아가 영상처리장치는 다른 다양한 모델을 사용하여 영상을 맵핑할 수 있다. 360도 영상을 맵핑하는 기법은 ERP, CMP(cube map projection), RCMP(Reshaped Cubemap Projection), ISP(icosahedral projection), OCP(octachedron projection) 등이 있다. 이하 설명하는 MV-SR은 특정 맵핑 기법에 제한되지 않는다. 이하 설명하는 기술은 다양한 맵핑 기법 중 어느 하나로 생성된 360도 영상에 적용할 수 있다. 다만, 설명의 편의를 위하여 ERP 매핑을 기준으로 설명한다. ERP 매핑된 영상을 단순하게 ERP 영상 또는 ERP라고 표현한다. 예컨대, LR-ERP는 저해상도 ERP 영상을 니타내고, HR-ERP는 고해상도 ERP 영상을 나타낸다.
도 2는 다시점 360도 영상을 제공하는 시스템에 대한 예이다.
시스템은 기본적으로 360도 영상을 촬영하는 복수의 카메라(11 내지 15)를 포함한다. 복수의 카메라(11 내지 15)는 360도 영상을 촬영하는 카메라이다. 복수의 카메라(11 내지 15)는 A 영역에 일정하게 배치된다. 도 2는 카메라(13)를 중심으로 주변에 다수의 카메라(11, 12, 14 및 15)가 배치된 형태를 도시한다.
도 2에 도시하지 않았지만, 영상처리장치가 복수의 카메라(11 내지 15)가 획득한 영상 각각을 도 1과 같은 과정을 통해 복수의 ERP 영상으로 생성할 수 있다. 저장장치(50)가 다시점 360도 영상을 저장할 수 있다. 한편, 영상처리장치는 개별 360도 영상을 일정하게 인코딩할 수 있다. 저장장치(50)는 다양한 형태로 구현될 수 있다. 도 2에서 저장장치(50)는 네트워크에 연결되는 DB(데이터베이스) 형태로 도시하였다. 저장장치(50)는 일정한 포맷으로 인코딩된 영상을 저장할 수 있다.
VR장치(80)는 네트워크를 통해 저장장치(50)에 저장된 다시점 360도 영상을 수신할 수 있다. VR장치(80)는 360도 영상 재상을 위하여 영상 데이터를 디코딩할 수 있다. VR장치(80)는 일정한 프로그램을 통해 다시점 360도 영상에 기반한 콘텐츠를 출력한다.
저장장치(50)는 일정하게 인코딩된 다시점 360도 영상을 저장할 수 있다. 360도 영상 자체가 일반적으로 고해상도 영상이다. 따라서, 다시점 360도 영상은 네트워크로 전송되면, 트래픽 사용량이 높아지고, 네트워크 상황에 따라 실시간 처리가 어려울 수도 있다. 또한, 다시점 360도 영상이 원본 형태로 저장 매체에 저장되면, 저장공간이 부족할 수도 있다.
이와 같은 한계를 극복하고자 초해상화 기법을 활용할 수 있다. 예컨대, 다시점 360도 영상 중 일부를 저해상도 영상으로 저장 또는 전송하고, 수신단(디코더)에서 필요한 경우 저해상도 영상을 고해상도 영상으로 변환하여 이용하는 것이다.
도 3은 초해상화를 사용하는 다시점 360도 영상 시스템에 대한 예이다. 인코더(30)는 복수의 카메라(11 내지 15)로부터 영상을 수신한다. 인코더(30)는 360도 영상 포맷에 따라 개별 영상을 인코딩할 수 있다. 이때, 인코더(30)는 복수의 360도 영상 중 일부 영상을 저해상도 영상으로 다운 스케일링할 수 있다. 저장장치(50)는 복수의 카메라(11 내지 15)가 획득한 영상으로 구성된 360도 영상들(video stream 11 ~ 15)을 저장한다. video stream(13)은 저해상도 영상이라고 가정한다.
360도 영상들(video stream 11 ~ 15)은 네트워크를 통해 수신단으로 전송된다. 디코더(70)는 인코딩된 영상을 디코딩한다. 영상처리장치(100)는 디코딩된 영상을 이용하여 초해상화를 한다. 영상처리장치(100)는 저해상도 영상 video stream(13) 및 인접한 다른 영상(video stream 11, 12, 14 및 15 중 적어도 하나)를 이용하여 video stream(13)을 고해상도 영상으로 변환한다. 저장장치(90)는 모두 고해상도 영상인 360도 영상들(video stream 11 ~ 15)을 저장할 수 있다.
수신단에서 디코더(70)와 영상처리장치(100)를 구분하여 표시하였다. 다만, 하나의장치가 디코딩과 초해상화를 수행할 수도 있다. 한편, 인코딩 내지 디코딩은 이하 설명하는 초해상화 과정과 연관이 없다. 영상처리장치는 저해상도 영상과 참조할 고해상도 영상만을 기준으로 초해상화를 한다.
이하 다시점 360도 영상에 대한 초해상도를 수행하는 장치를 영상처리장치라고 가정한다. 영상처리장치는 물리적으로 다양한 형태일 수 있다. 예컨대, 영상처리장치는 VR장치, PC, 서버, 프로그램이 임베디드된 칩셋 등일 수 있다. 영상처리장치는 복수의 360도 영상을 입력받아 초해상화를 수행한다.
ERP 영상은 영상 중 특정 영역에는 일정한 왜곡을 포함한다. 다시점 영상은 서로 다른 위치에 배치된 복수의 카메라로부터 획득된다. 동일한 지점 내지 영역을 촬영한 복수의 영상이라고, 카메라의 위치에 따라 ERP 영상의 왜곡 정도가 달라진다. 따라서, 어느 하나의 360도 카메라가 획득한 영상을 다른 카메라가 획득한 영상을 기준으로 초해상화하는 것이 쉽지 않다. 따라서, 다음과 같은 초해상화 과정을 제안한다.
복수의 360도 영상들 중 초해상화 대상인 영상을 타깃 영상이라고 명명한다. 타깃 영상은 저해상도 영상이다. 타깃 영상은 저해상도 타깃 영상과 타깃 영상을 촬영한 카메라에 인접한 카메라가 획득한 고해상도 영상을 사용하여 초해상화된다. 이때 인접한 카메라기 획득한 고해상도 영상을 레퍼런스 영상이라고 명명한다. 레퍼런스 영상은 타깃 영상이 캡쳐한 영역 전체 또는 일부를 포함한다. 도 2를 기준으로 설명하면, 타깃 영상이 카메라 13이 획득한 영상이라면, 레퍼런스 영상은 카메라 11, 12, 14 및 15 중 어느 하나일 수 있다.
도 4는 다시점 360도 영상에 대한 초해상화 과정(200)에 대한 예이다.
영상처리장치는 LR 영상인
Figure 112019126961874-pat00001
및 HR 영상인
Figure 112019126961874-pat00002
을 이용하여 타깃 영상
Figure 112019126961874-pat00003
Figure 112019126961874-pat00004
로 초해상화한다. 영상처리장치는 초해상화를 위하여 정확한 레퍼런스 영상을 사용해야 한다. 따라서, 영상처리장치는 레퍼런스 영상
Figure 112019126961874-pat00005
를 타깃 영상의 시점으로 변환(warping)한다. 이하 타깃 영상의 시점(view)을 o라고 하고, 원본 레퍼런스 영상의 시점을 r이라고 표현한다.
영상처리장치는 두 단계의 변환 과정을 사용할 수 있다. 훈련된 CNN이라도 ERP 영상에서 정확한 시차(disparity)를 추정하기 어렵다. 영상처리장치는 먼저 깊이 기반 변환(depth-based warping)을 수행한다(210). 이 과정은 타깃 영상과 레퍼런스 영상의 시점 차이를 고려한 변환이라고 할 수 있다. 다만, 깊이 정보의 잡음(noise) 및 장애물로 인한 시야 제한으로 인하여, 영상처리장치는 깊이 기반 변환만으로는 정확한 레퍼런스 영상을 생성하기 어렵다. 이에 영상처리장치는 깊이 기반 변환된 레퍼런스 영상을 플로우 기반으로 변환(flow-based warping)한다. 플로우 기반 변환은 후술할 신경망 모델에서 수행한다. 도 4에서 신경망 모델은 굵은 실선(N)으로 표시하였다.
영상처리장치는 저해상도 타깃 영상을 업 샘플링된 영상으로 변환한다(220). 업 샘플링된 영상이 고해상도 영상은 아니다. 업 샘플링은 신경망 모델에 입력할 데이터의 크기를 고해상도 영상과 동일하게 맞추기 위한 것이다. 영상처리장치는 깊이 기반 변환된 레퍼런스 영상과 업 샘플링된 타깃 영상을 이용하여 플로우를 추정할 수 있다(230).
이후, 영상처리장치는 신경망을 이용하여 입력데이터의 특징 맵을 생성한다. 영상처리장치는 깊이 변환된 레퍼런스 영상에 대한 제1 특징 맵을 생성한다(250). 영상처리장치는 업 샘플링된 타깃 영상에 대한 제2 특징 맵을 생성한다(240). 영상처리장치는 제1 특징 맵을 생성하는 과정에 추정한 플로우를 반영하여 플로우 기반 변환을 한다. 영상처리장치는 플로우로 개량된 제1 특징 맵을 생성한다(260).
영상처리장치는 플로우로 개량된 제1 특징 맵과 업 샘플링된 타깃 영상에 대한 제2 특징 맵을 이용하여 초해상화된 타깃 영상을 생성한다(270). 이하 각 과정을 상세하게 설명한다.
깊이 기반 변환을 제외하고, 플로우 추정, 플로우 반영한 특징맵 생성 및 초해상화는 모두 신경망 모델이 수행한다. 신경망 모델은 인코더-디코더(encoder-decoder) 구조를 갖는다. 인코더-디코더 구조는 다양할 수 있다. 이하 설명의 편의를 위해 CNN 인코더-디코더를 중심으로 설명한다. CNN 인코더-디코더를 구성하는 인코더와 디코더에 대하여 먼저 간략하게 설명한다.
도 5는 인코더를 구성하는 계층에 대한 예이다.
도 5(A)는 컨볼루셔널 계층에 대한 예이다. 도 5(A)는 컨볼루셔널 계층의 연산을 보여주고 있다. 컨볼루셔널 계층은 입력 이미지에 대한 컨볼루셔널 연산을 통해 특징맵(feature map)을 출력한다. 이때 컨볼루셔널 연산을 수행하는 필터(filter)를 커널(kernel) 이라고도 부른다. 필터의 크기를 필터 크기 또는 커널 크기라고 한다. 커널을 구성하는 연산 파라미터(parameter)를 커널 파라미터(kernel parameter), 필터 파라미터(filter parameter), 또는 가중치(weight)라고 한다. 컨볼루셔널 계층에서는 하나의 입력에 서로 다른 종류의 필터를 사용할 수 있다. 도 2에서 필터의 개수를 n이라고 표시하였다. n은 자연수이다. 이때 하나의 필터가 입력을 처리하는 과정을 컨볼루셔널 채널 (convolution channel)이라고 지칭한다.
도 5(A)는 하나의 채널에서 3x3의 커널 크기를 갖는 필터로 컨볼루셔널 연산을 수행하는 과정에 해당한다. 컨볼루셔널 계층은 입력이미지의 특정 영역을 대상으로 컨볼루션 연산을 수행한다. 도 5에서 점선 사각형으로 표시한 영역이 컨볼루션 연산 대상이다. 연산 영역을 윈도우 (window)라고 부른다. 윈도우는 영상의 좌측 상단에서 우측 하단까지 한 칸씩 이동할 수 있고, 한 번에 이동하는 이동 크기를 조절할 수 있다. 이동 크기를 스트라이드(stride)라고 한다. 컨볼루셔널 계층은 입력이미지에서 윈도우를 이동하면서 입력이미지의 모든 영역에 대하여 컨볼루션 연산을 수행한다. 한편 컨볼루셔널 계층은 영상의 가장 자리에 패딩(padding)을 하여 컨볼루션 연산 후 입력 영상의 차원을 유지시킨다.
컨볼루셔널 계층에서의 연산 결과로 얻은 특징맵을 서브 샘플링(sub sampling)하는 과정을 풀링(pooling layer)이라고 한다. 도 5(B)는 풀링 계층에 대한 예이다. 도 5(B)에서 풀링 계층은 2×2의 윈도우에서 하나의 샘플을 선택하여 그 출력의 가로 및 세로가 입력의 절반이 되도록 한다. 풀링은 스트라이드와 윈도우의 크기가 갖도록 하는 것일 일반적이다. 도 5(B)는 스트라이드와 윈도우 크기가 모두 2로 설정된 예이다. 풀링 연산은 최대 풀링(max pooling)과 평균 풀링(average pooling) 등이 있다. 최대 풀링은 윈도우 내에서 가장 큰 샘플 값을 선택한다. 평균 풀링은 윈도우에 포함된 값의 평균 값으로 샘플링한다.
비선형 연산 계층(nonlinear operation layer)은 뉴런(노드)에서 출력값을 결정하는 계층이다. 비선형 연산 계층은 전달 함수(transfer function)를 사용한다. 전달 함수는 Relu, sigmoid 함수 등이 있다.
도 6은 디코더를 구성하는 계층에 대한 예이다.
도 6(A)는 역컨볼루셔널 계층(deconvolution layer)에 대한 예이다. 역컨볼루셔널 계층은 컨볼루셔널 계층의 역동작을 수행한다. 역컨볼루셔널 계층은 컨볼루셔널 계층과 반대 방향으로 컨볼루션 연산을 수행한다. 역컨볼루셔널 계층은 입력으로 특징맵을 받아 커널을 이용한 컨볼루션 연산으로 출력 영상을 생성한다. 스트라이드를 1로 하면 역컨볼루셔널 계층은 특징맵의 가로, 세로 크기가 출력의 가로, 세로와 동일한 영상을 출력한다. 스트라이드를 2로 하면 역컨볼루셔널 계층은 특징맵의 가로, 세로 크기 대비 절반 크기의 영상을 출력한다.
도 6(B)는 언풀링 계층(unpooling layer)에 대한 예이다. 언풀링 계층은 풀링 계층의 반대 방향으로 업샘플링(upsampling)을 진행한다. 언풀링 계층은 풀링 계층과 다르게 반대로 차원을 확대하는 역할을 한다.
이하 영상처리장치가 초해상화를 수행하는 과정을 상세하게 설명한다.
깊이 기반 변환
d(p)는 픽셀 p에서 두 개의 픽셀 도메인 사이의 시차 벡터를 의미한다. 레퍼런스 영상의 시점 r에서 타깃 영상의 시점 o로 변환하기 위하여, 시점 r 기준의 깊이 데이터 및 두 개의 카메라 위치 정보가 필요하다. 두 개의 카메라는 타깃 영상을 획득한 카메라와 레퍼런스 영상을 획득한 카메라를 말한다. 타깃 영상을 획득한 카메라를 타깃 카메라라고하고, 레퍼런스 영상을 획득한 카메라는 레퍼런스 카메라라고 명명한다.
360도 카메라는 복수의 이미지 센서를 포함한다. 따라서, 360도 카메라는 복수의 영상을 획득하고, 이를 통해 일정한 시점에 대한 깊이 정보를 획득할 수 있다.
영상처리장치는 깊이 맵과 카메라 파라미터(위치 포함)를 사용하여 레퍼런스 영상의 모든 지점(픽셀)들을 3차원 좌표로 맵핑할 수 있다. 이후 영상처리장치는 3차원 좌표에 맵핑된 픽셀을 레퍼런스 카메라의 위치를 기준으로 레퍼런스 카메라 시점의 좌표로 다시 맵핑한다.
영상처리장치는 깊이 정보에 기반하여 레퍼런스 영상
Figure 112019126961874-pat00006
을 타깃 영상의 시점으로 변환한다.
Figure 112019126961874-pat00007
는 픽셀 p에서 레퍼런스 시점에서 타깃 시점으로 변환된 샘플값이라고 정의한다.
Figure 112019126961874-pat00008
p는
Figure 112019126961874-pat00009
에서 pr에 매칭된다.
dr이 서브 픽셀 정밀도(sub-pixel precision)를 갖기 때문에, 변환된 픽셀은 정수 그리드(integer-grid)를 갖는 픽셀-좌표에서 정렬되기 어렵다. 하나의 픽셀이 인접한 정수 그리드에 맵핑되는 경우, 두 가지 문제가 발생할 수 있다. 하나는 p에 복수의 대응 지점이 중첩되는 것인데, 이 경우 깊이 맵에서 더 작은 값을 선택하여 앞에 위치한 객체(foreground object)에 우선수위를 부여한다. 다른 하나는 가림(occlusion) 때문에 변환 과정에서 미완성 지점(홀, hole)이 발생하는 것인데, 이 경우 후속하는 플로우 기반 변환으로 해당 지점을 채운다.
도 7은 초해상화를 수행하는 신경망 모델(300)에 대한 예이다. 신경망 모델(300)은 CNN 인코더-디코더 구조를 갖는다. 신경망 모델은 인코더(310) 및 디코더(320)를 포함한다.
인코더(310)는 플로우를 추정하는 구성과 특징 맵을 생성하는 구성으로 구분된다. 설명의 편의를 위하여 플로우를 추정하는 구성을 제1 인코더(311)라고 하고, 특징 맵을 생성하는 구성을 제2 인코더(312)라고 명명한다.
제2 인코더(312)는 입력 데이터에서 특징 맵을 생성하고, 이 과정에서 제1 인코더(311)가 추정한 플로우를 사용한다. 따라서, 제1 인코더(311)가 먼저 학습되어 마련되어야 하고, 이후 제2 인코더(312) 및 디코더(320)가 학습된다.
플로우 기반 변환
플로우 기반 변환은 딥러닝 모델을 통해 수행된다. 플로우 기반 변환은 CNN 인코더-디코더 구조(300) 중 인코더(310)에서 수행된다.
제1 인코더(311)는 깊이 기반으로 변환된 레퍼런스 영상과 타깃 영상 사이의 플로우를 추정한다. 제1 인코더(311)도 복수의 컨볼루션 계층으로 구성되며, 각 컨볼루션 계층은 해당 단계에서 플로우를 추정한다. 옵티컬 플로우 추정을 위한 신경망은 FlowNet과 같은 모델을 활용할 수 있다. 예컨대, 제1 인코더(311)는 두 개의 이미지를 입력받아 각각 특징을 추출하고, 두 개의 특징을 비교하여 플로우를 연산할 수 있다. 또한, 전술한 바와 같이 제1 인코더(311)의 각 컨볼루션 계층은 해당 계층에서의 특징을 기준으로 플로우를 추정할 수 있다. 제1 인코더(311)는 두 개의 이미지를 동시에 입력받아 처리하기 위하여 입력단은 두 개의 계층이 쌍을 이루를 구조를 포함할 수 있다.
제2 인코더(312)는 제1 인코더(311)와 동일한 구조를 가질 수 있다.
제2 인코더(312)는 컨볼루션 계층에서 특징 맵 세트
Figure 112019126961874-pat00010
를 생성한다. f h, f wf c는 각각 높이(height), 너비(width) 및 특징 맵의 개수를 나타낸다.
특징 추출 과정에서 업 샘플된 LR-ERP인
Figure 112019126961874-pat00011
및 깊이 기반으로 타깃 시점 변환된 레퍼런스 영상
Figure 112019126961874-pat00012
이 입력 데이터이다.
Figure 112019126961874-pat00013
Figure 112019126961874-pat00014
을 이중 선형 보간(bilinear interpolation)하여 생성할 수 있다.
Figure 112019126961874-pat00015
는 제2 인코더(312)에 입력되어 특징 맵
Figure 112019126961874-pat00016
를 생성한다.
Figure 112019126961874-pat00017
는 제2 인코더(312)에 입력되어 특징 맵
Figure 112019126961874-pat00018
를 생성한다.
일반적인 컨볼루션 알고리즘과 달리, 신경망은 흐름 벡터 f를 연산하고, 특징 도메인에 연산된 흐름을 적용하여 특징 맵을 개량(refinement)한다. 제1 인코더(311)는 각 컨볼루션 계층에서 플로우를 추정한다. 제2 인코더(312)는 제1 인코더(311)에서 대응하는 컨볼루션 계층에서 전달되는 플로우를 특징 추출 과정에 반영한다. 아래 수학식 2는 가산 연산
Figure 112019126961874-pat00019
으로 플로우 기반 개량을 설명한다. 추정된 플로우가 입력데이터를 기반으로 생성되는 임시 특징 맵에 추가(add)된다.
깊이 정보 기반 변환만으로 생성된 레퍼런스 영상은 정확하지 않을 수 있다. 특히 360도 영상과 같이 일정한 왜곡이 존재하는 영상에서는 더욱 그러하다. 따라서, 플로우를 반영하여 일정한 편차를 정정하는 것이다.
Figure 112019126961874-pat00020
수학식 2에서 p는 특징 맵의 좌표이다.
디코더(320)는 제2 인코더(312)가 생성한 두 개의 특징을 결합(concatenation)한다. 두 개의 특징은
Figure 112019126961874-pat00021
에 플로우가 적용되어 개량된 제1 특징 맵과 특징 맵
Figure 112019126961874-pat00022
에 플로우가 적용되어 개량된 제2 특징 맵을 말한다. 디코더(320)는 결합된 특징들을 기준으로 초해상화된 영상
Figure 112019126961874-pat00023
을 생성한다.
도 8은 초해상화를 수행하는 영상처리장치(400)에 대한 예이다. 영상처리장치(400)는 VR장치, PC, 스마트기기, 네트워크 서버 등과 같은 형태일 수 있다.
영상처리장치(400)는 저장장치(410), 메모리(420), 연산장치(430), 인터페이스장치(440) 및 통신장치(450)를 포함할 수 있다.
저장장치(410)는 영상처리장치(400)의 동작을 위한 프로그램 내지 코드를 저장할 수 있다. 저장장치(410)는 전술한 신경망 모델(300)을 저장할 수 있다. 또한, 저장장치(410)는 레퍼런스 영상을 깊이 기반으로 변환(warping)하기 위한 프로그램을 저장할 수 있다. 나아가 저장장치(410)는 신경망 모델(300) 학습을 위한 프로그램 내지 코드를 저장할 수도 있다. 저장장치(410)는 신경망 모델이 생성한 고해상도 타깃 영상을 저장할 수 있다.
메모리(420)는 영상처리장치(400)의 동작 과정에서 생성되는 데이터 및 정보 등을 임시 저장할 수 있다.
인터페이스장치(440)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다. 인터페이스장치(440)는 물리적으로 연결된 입력장치 또는 물리적인 인터페이스(키패드, 터치 패널 등)로부터 일정한 정보를 입력받을 수 있다. 인터페이스장치(440)는 신경망 모델, 신경망 모델 학습을 위한 정보, 학습 데이터 등을 입력받을 수 있다. 인터페이스장치(440)는 신경망 모델 업데이트를 위한 파라미터값을 입력받을 수도 있다. 인터페이스장치(440)는 초해상화를 위한 복수의 360도 영상을 입력받을 수 있다. 인터페이스장치(440)는 전술한 타깃 영상 및 레퍼런스 영상을 입력받을 수 있다.
통신장치(450)는 무선 네트워크를 통해 일정한 정보를 송수신한다. 통신장치(450)는 신경망 모델, 신경망 모델 학습을 위한 정보, 학습 데이터 등을 입력받을 수 있다. 통신장치(450)는 신경망 모델 업데이트를 위한 파라미터값을 수신할 수 있다. 통신장치(450)는 신경망 모델 입력하기 위한 타깃 영상 및 레퍼런스 영상을 수신할 수 있다. 통신장치(450)는 신경망 모델이 생성한 고해상도 타깃 영상을 외부 객체에 전송할 수 있다.
인터페이스장치(440) 및 통신장치(450)는 사용자 또는 외부 객체로부터 일정한 정보 및 데이터를 입력받을 수 있다. 따라서 인터페이스장치(440) 및 통신장치(450)를 포괄하여 입력장치라고 명명할 수 있다.
연산장치(430)는 저장장치(410)에 저장된 프로그램 내지 코드를 이용하여 영상처리장치(400)의 동작을 제어한다. 연산장치(430)는 신경망 모델을 이용하여 초해상화를 수행한다.
연산장치(430)는 타깃 영상의 시점을 기준으로 깊이 기반으로 레퍼런스 영상을 변환할 수 있다.
연산장치(430)는 저해상도인 타깃 영상을 레퍼런스 영상의 크기와 동일하게 업 샘플링할 수 있다.
연산장치(430)는 변환된 레퍼런스 영상 및 업 샘플링된 타깃 영상을 신경망 모델에 입력하여 상기 타깃 영상에 대한 초해상화를 수행할 수 있다.
연산장치(430)는 제1 복수의 컨볼루션 계층을 포함하는 제1 인코더로 상기 플로우를 추정할 수 있다.
연산장치(430)는 제1 복수의 컨볼루션 계층과 동일한 구조의 제2 복수의 컨볼루션 계층을 포함하는 제2 인코더에 변환된 레퍼런스 영상을 입력하여 1 특징 맵을 생성할 수 있다.
연산장치(430)는 제1 복수의 컨볼루션 계층의 각 계층에서 추정된 플로우를 제2 복수의 컨볼루션 계층에서 대응되는 계층에 전달하여 플로우가 반영된 개량된 제1 특징 맵을 생성할 수 있다.
연산장치(430)는 제2 인코더에 업 샘플링된 타깃 영상을 입력하여 제2 특징 맵을 생성할 수 있다.
연산장치(430)는 개량된 제1 특징 맵 및 제2 특징 맵을 디코더에 입력하여 타깃 영상에 대한 고해상도 영상을 생성할 수 있다.
연산장치(430)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.
한편, 타깃 영상 및 레퍼런스 영상은 ERP, CMP, RCMP, ISP 및 OCP 맵핑 기법 중 어느 하나를 통해 360도 영상으로 변환된 영상일 수 있다.
전술한 초해상도 기법을 실험한 결과를 설명한다.
먼저, 실험에 사용된 데이터를 설명한다. 실험은 MPEG-I(Moving Picture Expert Group Immersive Media)에서 사용하는 "Classroom" 데이터 세트를 사용하였다. 데이터 세트는 15개 시점(즉, 15개의 카메라 사용)의 다시점 360도 영상들로 구성된다. 데이터 세트를 생성한 카메라 위치를 설명한다. 중심 카메라(v0)를 기준으로 일정한 제1 반경에 6개의 카메라(v1 ~ v6)가 배치되고, 제1 반경보다 큰 반경(즉, 외측)에 6개의 카메라(v9 ~ v14) 배치된다. 추가적으로 탑 뷰(top view)를 위한 카메라(v8) 및 바닥 뷰(bottom view)를 위한 카메라(v7)가 배치된다. 제1 반경의 카메라 그룹을 GIC, 제2 반경의 카메라 그룹을 GOC, 추가적인 카메라 그룹을 GTB라고 명한다. 데이터 세트를 구성하는 영상은 모두 영상과 함께 깊이 맵을 포함한다. 영상과 깊이 맵은 동일한 해상도 4096 × 2048를 갖는다. 데이터 세트는 시점별로 120개 영상들로 구성된다. 데이터 세트는 full ERP 포맷을 갖는다.
제안한 초해상도 기법은 PSNR(Peak Signal-to-noise ratio) 및 SSIM(Structural similarity index)을 사용하여 평가하였다. 전술한 초해상도 기법과 MV-SR의 최신 기술인 PASSRNet(Learning parallax attention for stereo image super-resolution, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 12250-12259)과 비교하였다.
아래 표 1은 GIC에 대하여 제안한 초해상도 기법(Ours라고 표기)과 PASSRNet의 성능을 비교한 결과이다. 즉, v0의 타깃 영상을 GIC에 위치한 레퍼런스 영상으로 초해상화하는 경우이다. 제안한 초해상도 기법(Ours)이 PSNR 기준으로 PASSRNet 보다 성능이 더 높았다. 아래 표 2는 GOC에 대하여 제안한 초해상도 기법(Ours라고 표기)과 PASSRNet의 성능을 비교한 결과이다. 아래 표 3은 탑 뷰와 바닥 뷰에 대한 결과이다. 모두 제안한 초해상도 기법(Ours)이 PASSRNet 보다 성능이 뛰어났다.
Figure 112019126961874-pat00024
Figure 112019126961874-pat00025
Figure 112019126961874-pat00026
도 9는 제안한 초해상도 기법에 대한 성능 실험 결과이다. 도 9는 초해상화 결과를 시각적으로 비교한 예이다. 도 9에서 GT는 고해상도 원본 영상이고, Ours는 제안한 초해상도 기법으로 초해상화한 영상이고, PASSRnet은 비교 대상 기술로 초해상화한 영상이다. 도 9(A)는 GTB의 v7을 레퍼런스 영상으로 이용한 예이다. 도 9(B)는 GIC의 v3을 레퍼런스 영상으로 이용한 예이다. 모두 제안한 초해상도 기법이 종래 기술에 비하여 품질이 좋은 것을 알 수 있다. 각 영상에서 하단의 영상은 상단의 영상 중 박스 영역을 확대한 것이다.
또한, 상술한 바와 같은 초해상화 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 컴퓨터가 읽은 수 있는 저장 매체에 저장될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다. 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, RAM, ROM 등과 같은 판독 가능 매체에 저장되어 제공될 수 있다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims (12)

  1. 영상처리장치가 다시점을 제공하는 복수의 360도 영상 중 저해상도인 타깃 영상 및 고해상도인 레퍼런스 영상을 입력받는 단계;
    상기 영상처리장치가 상기 타깃 영상의 시점을 기준으로 깊이 기반으로 상기 레퍼런스 영상을 변환하는 단계;
    상기 영상처리장치가 신경망 모델을 이용하여 상기 변환된 레퍼런스 영상 및 업 샘플링된 타깃 영상을 기준으로 플로우(flow)를 추정하는 단계;
    상기 영상처리장치가 신경망 모델을 이용하여 상기 변환된 레퍼런스 영상의 제1 특징 맵을 생성하면서, 상기 플로우를 반영하여 개량된 제1 특징 맵을 생성하는 단계;
    상기 영상처리장치가 신경망 모델을 이용하여 상기 업 샘플링된 타깃 영상의 제2 특징 맵을 생성하는 단계; 및
    상기 영상처리장치가 신경망 모델을 이용하여 상기 개량된 제1 특징 맵 및 상기 제2 특징 맵을 기준으로 상기 타깃 영상에 대한 초해상화를 수행하는 단계를 포함하되,
    상기 영상처리장치는 상기 레퍼런스 영상 및 상기 레퍼런스 영상의 깊이 정보를 이용하여 상기 레퍼런스 영상을 촬영한 카메라 위치 및 상기 타깃 영상을 촬영한 카메라 위치를 기준으로 상기 레퍼런스 영상의 시점을 변환하는 다시점 360도 영상의 초해상화 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 영상처리장치는 상기 저해상도인 타깃 영상을 상기 레퍼런스 영상의 크기와 동일하게 업 샘플링하는 단계를 더 포함하는 다시점 360도 영상의 초해상화 방법.
  4. 제1항에 있어서,
    상기 영상처리장치는
    제1 복수의 컨볼루션 계층을 포함하는 제1 인코더로 상기 플로우를 추정하고, 상기 제1 복수의 컨볼루션 계층과 동일한 구조의 제2 복수의 컨볼루션 계층을 포함하는 제2 인코더로 상기 변환된 레퍼런스 영상의 제1 특징 맵을 생성하되,
    상기 제1 복수의 컨볼루션 계층의 각 계층에서 추정된 플로우를 상기 제2 복수의 컨볼루션 계층에서 대응되는 계층에 전달하여 상기 개량된 제1 특징 맵을 생성하는 다시점 360도 영상의 초해상화 방법.
  5. 제1항에 있어서,
    상기 영상처리장치는 상기 개량된 제1 특징 맵 및 상기 제2 특징 맵을 디코더에 입력하여 상기 타깃 영상에 대한 고해상도 영상을 생성하는 다시점 360도 영상의 초해상화 방법.
  6. 제1항에 있어서,
    상기 영상처리장치는 CNN(convolutional neural network) 인코더-디코더를 이용하여 상기 초해상화를 수행하되,
    상기 CNN 인코더-디코더는 상기 플로우를 추정하는 제1 인코더, 상기 개량된 제1 특징 맵 및 상기 제2 특징 맵을 생성하는 제2 인코더 및 상기 개량된 제1 특징 맵 및 상기 제2 특징 맵을 입력받아 상기 타깃 영상에 대한 고해상도 영상을 생성하는 디코더를 포함하는 다시점 360도 영상의 초해상화 방법.
  7. 복수의 360도 영상 중 저해상도인 타깃 영상 및 고해상도인 레퍼런스 영상을 입력받는 입력장치;
    360도 영상에 대한 초해상화를 수행하는 신경망 모델을 저장하는 저장장치; 및
    상기 타깃 영상의 시점을 기준으로 깊이 기반으로 상기 레퍼런스 영상을 변환하고, 상기 변환된 레퍼런스 영상 및 업 샘플링된 타깃 영상을 상기 신경망 모델에 입력하여 상기 타깃 영상에 대한 초해상화를 수행하는 연산장치를 포함하되,
    상기 신경망 모델은 플로우를 추정하는 제1 인코더, 상기 플로우를 반영하여 상기 변환된 레퍼런스 영상에 대한 개량된 제1 특징 맵 및 상기 업 샘플링된 타깃 영상에 대한 제2 특징 맵을 생성하는 제2 인코더 및 상기 개량된 제1 특징 맵 및 상기 제2 특징 맵을 입력받아 상기 타깃 영상에 대한 고해상도 영상을 생성하는 디코더를 포함하되,
    상기 연산장치는 상기 저해상도인 타깃 영상을 상기 레퍼런스 영상의 크기와 동일하게 업 샘플링하는 다시점 360도 영상의 초해상화를 수행하는 영상처리장치.
  8. 제7항에 있어서,
    상기 연산장치는 상기 레퍼런스 영상 및 상기 레퍼런스 영상의 깊이 정보를 이용하여 상기 레퍼런스 영상을 촬영한 카메라 위치 및 상기 타깃 영상을 촬영한 카메라 위치를 기준으로 상기 레퍼런스 영상의 시점을 변환하는 다시점 360도 영상의 초해상화를 수행하는 영상처리장치.
  9. 삭제
  10. 제7항에 있어서,
    상기 연산장치는
    제1 복수의 컨볼루션 계층을 포함하는 상기 제1 인코더로 상기 플로우를 추정하고, 상기 제1 복수의 컨볼루션 계층과 동일한 구조의 제2 복수의 컨볼루션 계층을 포함하는 상기 제2 인코더로 상기 변환된 레퍼런스 영상의 제1 특징 맵을 생성하되,
    상기 제1 복수의 컨볼루션 계층의 각 계층에서 추정된 플로우를 상기 제2 복수의 컨볼루션 계층에서 대응되는 계층에 전달하여 상기 개량된 제1 특징 맵을 생성하는 다시점 360도 영상의 초해상화를 수행하는 영상처리장치.
  11. 제7항에 있어서,
    상기 타깃 영상 및 상기 레퍼런스 영상은 ERP(Equirectangular projection), CMP(cube map projection), RCMP(Reshaped Cubemap Projection), ISP(icosahedral projection) 및 OCP(octachedron projection) 맵핑 기법 중 어느 하나를 통해 360도 영상으로 변환된 영상인 다시점 360도 영상의 초해상화를 수행하는 영상처리장치.
  12. 컴퓨터에서 제1항 및 제3항 내지 제6항 중 어느 하나의 항의 다시점 360도 영상의 초해상화 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
KR1020190162738A 2019-12-09 2019-12-09 다시점 360도 영상의 초해상화 방법 및 영상처리장치 KR102141319B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190162738A KR102141319B1 (ko) 2019-12-09 2019-12-09 다시점 360도 영상의 초해상화 방법 및 영상처리장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190162738A KR102141319B1 (ko) 2019-12-09 2019-12-09 다시점 360도 영상의 초해상화 방법 및 영상처리장치

Publications (1)

Publication Number Publication Date
KR102141319B1 true KR102141319B1 (ko) 2020-08-04

Family

ID=72048655

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190162738A KR102141319B1 (ko) 2019-12-09 2019-12-09 다시점 360도 영상의 초해상화 방법 및 영상처리장치

Country Status (1)

Country Link
KR (1) KR102141319B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102222291B1 (ko) * 2020-09-03 2021-03-03 아날로그플러스 주식회사 영상 컨텐츠 자판기 및 그 제어 방법
CN113096174A (zh) * 2021-03-24 2021-07-09 苏州中科广视文化科技有限公司 一种基于多平面扫描的端到端网络的多视点场景重建方法
CN114418845A (zh) * 2021-12-28 2022-04-29 北京欧珀通信有限公司 图像分辨率提升方法及装置、存储介质及电子设备
KR20220096396A (ko) * 2020-12-31 2022-07-07 이화여자대학교 산학협력단 Erp 기반 다시점 360도 영상의 초해상화 방법 및 영상처리장치
KR20230052378A (ko) 2021-10-13 2023-04-20 이화여자대학교 산학협력단 초해상화를 이용한 다시점 비디오의 복호 방법 및 디코더
US11900561B2 (en) 2020-11-25 2024-02-13 Electronics And Telecommunications Research Institute Deep learning-based image stitching method and apparatus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180039529A (ko) * 2016-10-10 2018-04-18 엘지전자 주식회사 이동 단말기 및 그의 동작 방법
KR20190011224A (ko) * 2017-07-24 2019-02-01 한국전자통신연구원 6자유도 지원 360도 vr 영상 획득 및 재현을 위한 방법 및 그 장치
KR20190097205A (ko) * 2017-02-24 2019-08-20 딥마인드 테크놀로지스 리미티드 멀티스케일 이미지 생성

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180039529A (ko) * 2016-10-10 2018-04-18 엘지전자 주식회사 이동 단말기 및 그의 동작 방법
KR20190097205A (ko) * 2017-02-24 2019-08-20 딥마인드 테크놀로지스 리미티드 멀티스케일 이미지 생성
KR20190011224A (ko) * 2017-07-24 2019-02-01 한국전자통신연구원 6자유도 지원 360도 vr 영상 획득 및 재현을 위한 방법 및 그 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LongguangWang, YingqianWang, Zhengfa Liang, Zaiping Lin, Jungang Yang, Wei An, and Yulan Guo, "Learning parallax attention for stereo image super-resolution,"in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 12250-12259.

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102222291B1 (ko) * 2020-09-03 2021-03-03 아날로그플러스 주식회사 영상 컨텐츠 자판기 및 그 제어 방법
US11900561B2 (en) 2020-11-25 2024-02-13 Electronics And Telecommunications Research Institute Deep learning-based image stitching method and apparatus
KR20220096396A (ko) * 2020-12-31 2022-07-07 이화여자대학교 산학협력단 Erp 기반 다시점 360도 영상의 초해상화 방법 및 영상처리장치
KR102442980B1 (ko) * 2020-12-31 2022-09-13 이화여자대학교 산학협력단 Erp 기반 다시점 360도 영상의 초해상화 방법 및 영상처리장치
CN113096174A (zh) * 2021-03-24 2021-07-09 苏州中科广视文化科技有限公司 一种基于多平面扫描的端到端网络的多视点场景重建方法
KR20230052378A (ko) 2021-10-13 2023-04-20 이화여자대학교 산학협력단 초해상화를 이용한 다시점 비디오의 복호 방법 및 디코더
CN114418845A (zh) * 2021-12-28 2022-04-29 北京欧珀通信有限公司 图像分辨率提升方法及装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
KR102141319B1 (ko) 다시점 360도 영상의 초해상화 방법 및 영상처리장치
Tateno et al. Distortion-aware convolutional filters for dense prediction in panoramic images
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
TWI709107B (zh) 影像特徵提取方法及包含其顯著物體預測方法
Attal et al. MatryODShka: Real-time 6DoF video view synthesis using multi-sphere images
US11341715B2 (en) Video reconstruction method, system, device, and computer readable storage medium
US20220014723A1 (en) Enhancing performance capture with real-time neural rendering
Lai et al. Real-time panoramic depth maps from omni-directional stereo images for 6 dof videos in virtual reality
JP7058277B2 (ja) 再構成方法および再構成装置
CN113689539B (zh) 基于隐式光流场的动态场景实时三维重建方法
CN111669564B (zh) 图像重建方法、系统、设备及计算机可读存储介质
CN105681805A (zh) 视频编码、解码方法及其帧间预测方法和装置
CN111667438B (zh) 视频重建方法、系统、设备及计算机可读存储介质
CN112991254A (zh) 视差估计系统、方法、电子设备及计算机可读存储介质
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN114170290A (zh) 图像的处理方法及相关设备
WO2022208440A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
Lee et al. Farfetchfusion: Towards fully mobile live 3d telepresence platform
Pintore et al. Deep scene synthesis of Atlanta-world interiors from a single omnidirectional image
Shi et al. Deep residual architecture using pixel and feature cues for view synthesis and temporal interpolation
Jäger et al. A comparative Neural Radiance Field (NeRF) 3D analysis of camera poses from HoloLens trajectories and Structure from Motion
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
KR101946715B1 (ko) 360도 영상을 위한 움직임 추정에서 적응적 탐색 영역 결정 방법
Zhang et al. As-deformable-as-possible single-image-based view synthesis without depth prior
KR102442980B1 (ko) Erp 기반 다시점 360도 영상의 초해상화 방법 및 영상처리장치

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant